ブートストラップ法 ブートストラップ法の概要

ブートストラップ法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/06 17:15 UTC 版)

ナビゲーションに移動 検索に移動

概要

ブートストラップ法は母集団推定量(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法である。近似分布としては、測定値から求められる経験分布を用いるのが標準的である。また仮説検定に使う場合もある。仮定される分布が疑わしい場合や、パラメトリックな仮定が不可能ないし非常に複雑な計算を必要とするような場合に、パラメトリックな仮定に基づく推計の代わりに用いられる。

ブートストラップ法の利点は解析的な手法と比べて非常に単純なことである。母集団分布の複雑なパラメータパーセンタイル点、割合、オッズ比相関係数など)の複雑な推定関数に対して標準誤差信頼区間を求めるために、単にブートストラップ標本を適用するだけで済む。

一方ブートストラップ法の欠点として、漸近的に一致する場合には有限標本が保証されず、楽観的になる傾向がある。

例: フィッシャーのアヤメ

この手法の基本概念と価値を示すため、やや人工的な例を用いる。フィッシャーによる有名なアヤメの計測値(Iris flower data setを参照)を用い、iris-virginicaアイリス・バージニカiris-versicolorアイリス・バージカラー の2種を判別するモデルを構築することを考える。

この2種を、がく片の長さのみを説明変数として判別するロジスティック回帰モデルを考え、最尤法を用いると、次表のとおりパラメータの最尤推定値と標準誤差が得られる。

説明変数 最尤推定値 標準誤差
切片 -12.57 2.91
がく片長 2.01 0.47

モデル式

2.01×がく片長-12.57≧0のとき virginica と判別
2.01×がく片長-12.57<0のとき versicolorと判別

(このモデル式では、virginica は標本50個中37個、versicolor は50個中36個が正しく判別されている。)

最尤推定値は漸近的には正規分布することが知られている。今回の標本50個ずつのデータで出した最尤推定値(切片:-12.57、がく片長の係数:2.01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。

  1. 元データからn個の標本を復元抽出する。このときnは元データの標本数である。
  2. 最尤法でロジスティック回帰モデルに当てはめる。
  3. このブートストラップ抽出を何度も(

これらのパラメータの分布は当然のことながら正規分布ではない。これは、標本数が有限であり、漸近的にしか正規分布にならないためである。最尤推定値について正規分布の仮定を置かなくても、ブートストラップを用いて得た分布を使えば、最尤推定値の信頼区間の推定や仮説検定を行うことができるようになる。

ブートストラップ標本から信頼区間を推定する方法として、推定量の変位値()を使う方法がある。これをブートストラップパーセンタイル区間と呼ぶ。この例では、切片とがく片長の係数のブートストラップ95%パーセンタイル区間は、それぞれ(-20.02, -7.08)と(1.26, 3.20)となる。

一方、正規分布を仮定した95%信頼区間は最尤推定値プラスマイナス1.96倍標準誤差で求められ、それぞれ(-18.26, -6.87)と(1.10, 2.93)となる。漸近理論を用い正規分布を仮定して求めた信頼区間は対称になっており、ブートストラップを用いた信頼区間と比較すると狭い。

非復元抽出によるもの、2標本問題、回帰時系列、階層的抽出、mediation analysis などの統計的問題を取り扱うような、より複雑なブートストラップ法がある。

ブートストラップ法のいろいろ

一変量の解析では、普通は復元抽出で再標本化して構わない。しかし標本数が少ない場合にはパラメトリックなブートストラップ法の方が適切な場合もあるし、問題によっては平滑化ブートストラップ法が適切になるだろう。回帰問題の場合には様々な代替法がある。

平滑化ブートストラップ

これは毎回の繰り返しごとにわずかな(ふつうは正規分布の)ゼロ平均ランダムノイズを加える方法である。これはデータのカーネル密度推定量から再標本化することと等価である。

パラメトリックブートストラップ

パラメトリックなモデルを(たいていは最尤法により)データに当てはめ、このモデルからランダムな個数の再標本化を行う方法である。

個別の再標本化

回帰問題において、個々のケース(たいていはデータセットの各行)について再標本化を行う単純な方法をいう。データセットが十分大きければ、たいていこういう単純な方法でも構わない。しかし議論の余地はある。

説明変数はたいてい固定されているか、少なくとも従属変数よりも支配的である。また説明変数の範囲がそこから引き出される情報を規定する。したがって個々のケースを再標本化することは、ブートストラップ標本は何らかの情報を失っていることを意味する。したがって他のブートストラップ法を考慮すべきである。

残余の再標本化

回帰問題におけるブートストラップを行うもう一つの方法は、残余を再標本化するものである。すなわち、

  1. モデルを当てはめ、当てはめた値を、残余を)とする。
  2. 説明変数と従属変数の組のそれぞれについて、ランダムに標本化した残余を従属変数に加える。
  3. モデルを再度当てはめ、目的の量(たいていは推定したパラメータ)を記録する。
  4. 2と3のステップをB回繰り返す。

この方法は説明変数の持つ情報を保持しているという利点がある。しかしどの残余を標本化するのかという疑問が起こる。そのままの残余を用いる手もあるし、(線形回帰では)スチューデント化残差を用いることもできる。スチューデント化残差を使う方が好ましいという議論はあるのだが、実際にはほとんど差がでない上、双方を用いて互いに結果を比べることは容易である。

大雑把なブートストラップ

前項と同様だがランダムに標本化した残余の符号をさらにランダムに変えるものである。これは残余の分布が対称なことを仮定しており、元の標本数が少ない場合に利点がある。




  1. ^ アーカイブされたコピー”. 2012年5月18日時点のオリジナルよりアーカイブ。2012年5月16日閲覧。 アーカイブされたコピー”. 2007年10月18日時点のオリジナルよりアーカイブ。2007年12月21日閲覧。
  2. ^ [1]


「ブートストラップ法」の続きの解説一覧



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「ブートストラップ法」の関連用語

ブートストラップ法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ブートストラップ法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのブートストラップ法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS