信用区間
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/08/25 09:17 UTC 版)
統計学 |
ベイズ統計学 |
---|
![]() |
ベイズの定理 |
事後確率 = 尤度×事前確率÷証拠 |
背景 |
|
モデル構築 |
|
近似手法 |
|
推定量 |
モデル評価 |
信用区間(しんようくかん、英: credible interval, CI)または確信区間(かくしんくかん)とは、ベイズ統計学で母集団の真値が含まれることが、かなり確信できる数値範囲のことである。例えば95%CIとは、この範囲に95%の確率で母集団の値が存在すると、確信できることを意味する。信用区間は典型的には事後確率や事後予測分布を特徴付ける量として利用される。[1]
信用区間は、ベイズ推定において伝統的頻度論での信頼区間に対応するが、[2]これら2つの概念は互いに異なる理念に基づいている。[3]伝統的頻度論での真値は点であり、信頼区間は「範囲内に真の値を含む確率」として理解されるが、ベイズ統計学では真値は確率分布し、信用区間は「真の値が存在する確率範囲」として理解される。このため、頻度主義統計学でしばしば間違いであると指摘される、「□□の値が a から b の間に入る確率は○%である」との言い方は、ベイズ統計学においては正しい。さらに、信用区間はその時々の状況に固有の事前確率の知識を利用して計算されるのに対して,頻度論的信頼区間はそうではない。
定義
数学的には、θ の 100(1-α)%信用区間とは、
-
等裾事後信用区間の例:赤縦線の外側はそれぞれ2.5% - 等裾事後信用区間(とうきょじごしんようくかん、Equal-tail interval)とは、信用区間を求める際に確率分布の両端を等%ずつ切り落として得られた区間をいう。例えば95%等裾事後信用区間を求める際には、母数の事後確率分布の両端2.5%を切り落とした範囲となる。
最高事後密度信用区間の例:赤縦線の外側は合わせて5% - 最高事後密度信用区間(さいこうじごみつどしんようくかん、Highest posterior density interval)とは、確率分布から分布密度がある値以上をとる区間を切り出した場合に、当該%となる様な区間をいう。非対称分布の場合、これは最も狭い区間となる。例えば95%最高事後密度信用区間を求める際に、下側1%点と上側4%点の高さ(確率密度)が同じであった場合、下側1%未満と上側4%超を切り落とした範囲となる。
- パラメータの定義域が(既知の)上限・下限を持つ場合、確率分布の上側ないし下側からX%となるような(未知の)下限・上限の情報が有益である場合があり、それによって信用区間が定義されることがある。
頻度論信頼区間との対比
頻度論において、「95%信頼区間」という言葉は、同様の実験を十分な試行回数のもとで、計算された信頼区間の95%がパラメータの真値を含むことを意味する。 頻度主義統計学の用語では、パラメータは固定されており、可能な値の分布を持つとは考えられない。一方、信頼区間はランダム標本に依存するためランダムである。
一方、ベイズ推定における信用区間は、主に2つの側面で頻度主義的信頼区間と対照的である:
- 信用区間とはその値が(事後)確率密度を持つ区間で、パラメータがその値を持つことの確からしさを表しているのに対し、信頼区間は母集団のパラメータを固定とみなしているため、確率の対象ではない。信頼区間における「信頼」という言葉は、繰り返される試行の下でのまさに信頼区間のランダム性を意味する。一方、信用区間では、(追加の試験ではなく)手元にあるデータに基づいて、パラメータの不確実性を分析する。
- 信用区間と信頼区間とで、局外母数を全く異なるように扱う。ここで、局外母数とは、興味のあるモデルが依存している(このため、何らかの値を設定しなければならない)が、研究者が直接興味を持っていないパラメータのことを指し、例えば正規分布でモデル化できるが平均だけが興味がある研究における母分散などが該当する。頻度論的アプローチではこれらのパラメータは最尤推定による点で置き換えられる。一方、ベイズ推定においては、局外母数に対しても事前分布を設定し、事後分布を周辺化する。
これらの区間が一致する場合も少数ながら存在する。単一の母数の推定に対して、データが単一の十分統計量のみを提供し、さらにこの母数が位置母数かつベイズ推定での事前分布が一様分布であるならば、信頼区間と信用区間は一致する。[5]他にも、単一の母数の推定に対して、データが単一の十分統計量のみを提供し、さらに未知の母数が尺度母数かつベイズ推定での事前分布がジェフリーズ事前分布
カテゴリ
- 信用区間のページへのリンク