例: フィッシャーのアヤメ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/06 17:15 UTC 版)
「ブートストラップ法」の記事における「例: フィッシャーのアヤメ」の解説
この手法の基本概念と価値を示すため、やや人工的な例を用いる。フィッシャーによる有名なアヤメの計測値(Iris flower data setを参照)を用い、iris-virginica(アイリス・バージニカ) と iris-versicolor(アイリス・バージカラー) の2種を判別するモデルを構築することを考える。 この2種を、がく片の長さのみを説明変数として判別するロジスティック回帰モデルを考え、最尤法を用いると、次表のとおりパラメータの最尤推定値と標準誤差が得られる。 説明変数最尤推定値標準誤差切片 -12.57 2.91 がく片長 2.01 0.47 モデル式 2.01×がく片長-12.57≧0のとき virginica と判別 2.01×がく片長-12.57<0のとき versicolorと判別 (このモデル式では、virginica は標本50個中37個、versicolor は50個中36個が正しく判別されている。) 最尤推定値は漸近的には正規分布することが知られている。今回の標本50個ずつのデータで出した最尤推定値(切片:-12.57、がく片長の係数:2.01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。 元データからn個の標本を復元抽出する。このときnは元データの標本数である。 最尤法でロジスティック回帰モデルに当てはめる。 このブートストラップ抽出を何度も( B {\displaystyle B} 回)繰り返す。 こうして計算された「推定量の標本分布」は、本来の標本分布の近似になっている。 下図は10000回のブートストラップ抽出により推定された2つのパラメータのカーネル密度プロットである。 これらのパラメータの分布は当然のことながら正規分布ではない。これは、標本数が有限であり、漸近的にしか正規分布にならないためである。最尤推定値について正規分布の仮定を置かなくても、ブートストラップを用いて得た分布を使えば、最尤推定値の信頼区間の推定や仮説検定を行うことができるようになる。 ブートストラップ標本から信頼区間を推定する方法として、推定量の変位値( α ; {\displaystyle \alpha ;} と 1 − α {\displaystyle 1-\alpha } )を使う方法がある。これをブートストラップパーセンタイル区間と呼ぶ。この例では、切片とがく片長の係数のブートストラップ95%パーセンタイル区間は、それぞれ(-20.02, -7.08)と(1.26, 3.20)となる。 一方、正規分布を仮定した95%信頼区間は最尤推定値プラスマイナス1.96倍標準誤差で求められ、それぞれ(-18.26, -6.87)と(1.10, 2.93)となる。漸近理論を用い正規分布を仮定して求めた信頼区間は対称になっており、ブートストラップを用いた信頼区間と比較すると狭い。 非復元抽出によるもの、2標本問題、回帰、時系列、階層的抽出、mediation analysis などの統計的問題を取り扱うような、より複雑なブートストラップ法がある。
※この「例: フィッシャーのアヤメ」の解説は、「ブートストラップ法」の解説の一部です。
「例: フィッシャーのアヤメ」を含む「ブートストラップ法」の記事については、「ブートストラップ法」の概要を参照ください。
- 例: フィッシャーのアヤメのページへのリンク