最小記述長
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/05/28 16:54 UTC 版)
![]() | この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
最小記述長(さいしょうきじゅつちょう、英: minimum description length, MDL)は、情報理論に基づくモデル選択基準である。
モデル選択とは、データに照らして何らかの意味で最適なモデル族(確率分布の集合)を検討する過程を指す。
MDLは、1978年、Jorma Rissanen により導入された。MDLでは、データをモデルを用いて圧縮・送信する際の符号長の最小化を考える。これはノイズを含むデータから意味のある規則性を抽出することにあたる。
最小記述長原理に基づくモデル選択指標としてNormalized Maximum Likelihood (NML)と、その罰則項を漸近展開して得られるFisher Information Approximation (FIA)がある。
MDLは (AICと違い) 離散データを扱う情報理論に基盤を置いているので、連続値データに対し使うときは注意を要する。
AIC・BICとの比較
統計的推測に基盤を置くAIC、BICが真の分布の存在を仮定するのに対し、MDLは真の分布の存在を仮定せず、あくまでデータの最短記述(規則性抽出)を考える。NMLを漸近展開しΟ (logn)までの項のみを残したものがBICと一致するため、BICはNMLの粗い近似となる。
また、ベイズ統計学における負の対数周辺尤度(ベイズ自由エネルギー)をジェフリーズ事前分布を用いて漸近展開したものがFIAと一致する。さらにサンプルサイズnに拠らない項を切り捨てるとBICになる。したがって、FIAおよびBICはNMLに漸近一致する。AICとBICがモデルの自由パラメータ数のみを複雑性として罰するのに対し、FIAとNMLはモデル式の構造に由来する複雑性をも罰することが可能である。ただし、小サンプルの下ではFIAの罰則項は正常に機能せず、常により複雑なモデルが選択されてしまう(BICおよびNMLにはこの欠点は無い)。AIC、BIC、MDLは立脚する背景が異なるため(期待対数尤度の推定、対数周辺尤度の近似、記述長の最小化)、その時々の問題意識に基づいてどれを使うかを慎重に決める必要がある。漸近理論に強く依存するAIC、BIC、FIAとは異なり、NMLは限られたサンプルに基づく現実のデータ解析において正確なモデル選択指標となる。
最小記述長(Minimum description length)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/11/18 11:23 UTC 版)
「ジェフリーズ事前分布」の記事における「最小記述長(Minimum description length)」の解説
統計学における最小記述長を用いたアプローチの目標は、記述長さを使用するコードのビット数で測定する場合に、データを可能な限りコンパクトに記述することである。パラメータ化された分布族の場合、各分布の記述長に基づいて最良の記述長を持つ分布を決定することができる。主な結果として、指数型分布族では、サンプルサイズが大きい場合は漸近的に、指数型分布族の要素とジェフリーズ事前分布に基づく記述長が最適になる。この結果は、パラメーター集合を完全なパラメーター空間の内部のコンパクト部分集合に制限する場合に当てはまる[要出典] 。完全なパラメータを使用する場合は、結果の修正バージョンを使用する必要がある。
※この「最小記述長(Minimum description length)」の解説は、「ジェフリーズ事前分布」の解説の一部です。
「最小記述長(Minimum description length)」を含む「ジェフリーズ事前分布」の記事については、「ジェフリーズ事前分布」の概要を参照ください。
- 最小記述長のページへのリンク