出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/28 00:58 UTC 版)
例
二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。
500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことのできる分布が二項分布である。
抽出された集団の中に含まれる罹患者数を確率変数 X で表すとき、X は n = 500, p = 0.05 の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は Pr[X ≥ 30] である。
定義
単純な定義としては、成功確率pの試行を独立にn回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。
2つの母数p(0 ≤ p ≤ 1となる実数), n(自然数)に対して、0 以上の整数を値としてとる確率変数Xを定める。このとき、Xは試行の成功回数なので、(0 ≤ X ≤ n)である。
そして、X = xとなるような確率についての関数(確率質量関数)fX(x)について、
となることが性質よりわかる。
また、fX(x)は確率であるため、
も明らかである。
上記を定義として、xをkに書き換え、
で与えられるとき、Xは二項分布B(n, p)に従う、という。これはX ∼ B(n, p)と表記される。
ここで、
は n 個から k 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。
n = 1 の場合を特に、ベルヌーイ分布と呼ぶ。
上の定義式は次のように解釈することができる。1回の試行において成功する確率が p であるとき、pk は k 回成功する確率を表し、(1 − p)n−k は n − k 回失敗する確率を表している。ただし、k 回の成功は n 回の試行の中のどこかで発生したものであるから、nCk 通りの発生順序がある。これら全てを掛けると、n 回の独立な試行を行ったときの成功回数が k となる確率を求めることができる。
性質の導出
期待値・分散
二項分布 B(n, p) に従う確率変数 X に対し、X の期待値 E[X] を求めると
ここで、k′ = k − 1とおくと、
これは全ての順序付けられた試行パターンについての平均値でもある。
続いて、分散 V[X] は
上と同様に
合計して、
となる。
モーメント
二項分布 B(n, p) に従う確率変数 X の r 次モーメント E[Xr] は
というやや複雑な表示をもつ。ここで S(r, j) は第二種スターリング数。低次から
となる。一方 X の r 次階乗モーメント(英語版) E[(X)r] は
という単純な表示をもつ。ここで (n)r = n!/(n − r)! はポッホハマー記号。低次から
となる。
再生性
二項分布は再生性を有する。すなわち B(n, p) に従う確率変数 X と B(m, p) に従う確率変数 Y が互いに独立であるとき、確率変数の和 X + Y は二項分布 B(n + m, p) に従う。