ベイズ統計学における事後予測分布(英: posterior predictive distribution)とは、ある量についての観測に基づいて予測された将来の観測でのその量が従う確率分布である。[1][2]
に関する独立同分布な N 回の観測データ
があるとき、新たな観測値
はパラメータ
に依存するある分布
-
に従う。ここで、
はパラメータ空間である。
として最良推定の
を利用することは魅力的に見えるかもしれない。しかし、これを採用すると
の不定性が考慮されなくなる。そして、不定性の源もまた無視されるため、予測分布も極めて狭くなる。
言い換えれば、極端な
の観測確率は、パラメータの事後分布が与える
の不定性を考慮した場合と比較して過小評価されることになる。
事後予測分布は
の不定性を考慮に入れた分布である。
の事後分布は
に依存する:
-
そして、
に基づいた
の予測分布は、
について周辺化することで得られる:
-
事後予測分布は
の不定性を考慮しているので、一般的に
の点推定を利用した予測分布に比べて広い分布を示す。
事前予測分布と事後予測分布
ベイズ統計学の文脈において、事前予測分布(英: prior predictive distribution)は事前分布
によって
を周辺化した分布である。すなわち、
かつ
であれば、対応する事前予測分布
は次で与えられる:
-
この概念は、事後分布の代わりに事前分布を利用して周辺化を行っている(期待値を取っているということもできる)ことを除けば、事後予測分布に類似している。
さらに、事前分布
が共役事前分布(英語版)であれば、事後予測分布と事前予測分布は同じ分布族に属する。これは簡単に示すことができる。もし事前分布
が共役であれば、以下が成立する:
-
すなわち、事後確率分布もまた
の形を取り、パラメータが
から
へと変化しただけとなる。すると、
-
したがって、事後予測分布と事前予測分布とは、(ハイパーパラメータが更新された)同一の分布Hに従う。
事前予測分布は複合確率分布(英語版)の形で与えられるが、実際には複合確率分布を定義するときに出現することも往々にして存在する。これは、データ
への依存や共役性の問題などの複雑な要素がないからである。例としてT分布は、 既知の期待値
、未知の分散
で特徴付けられる正規分布について、
の事前分布として共役事前分布(英語版)である(パラメータ
で特徴付けられる)逆ガンマ分布を利用した場合、事前予測分布は位置尺度T分布となる:
これは共役事前分布であるから、事後予測分布もデータ
の情報を基に更新されたハイパーパラメータ
で特徴付けられる逆ガンマ分布となる。
適切な複合分布は目下の問題における予測分布にとって最も自然なものとは異なるパラメータを採用して定義される場合がある。 これは、複合分布を定義するために使用された事前分布が、現在の問題で使用されている事前分布と異なるために起こることが多い。上記の例では、尺度つき逆カイ二乗分布(英語版) もまた共役事前分布であり、実際尺度つき逆カイ二乗分布と逆ガンマ分布は適切なパラメータ変換のもとで同じ確率分布を記述する。
- ^ “Posterior Predictive Distribution”. SAS. 2014年7月19日閲覧。
- ^ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis (Third ed.). Chapman and Hall/CRC. p. 7. ISBN 978-1-4398-4095-5