パープレキシティ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/23 04:01 UTC 版)
![]() |
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2022年7月)
|
情報理論において、パープレキシティ(英: perplexity)は、確率分布や確率モデルがサンプルをどの程度正確に予測するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。
確率分布のパープレキシティ
離散確率分布
この節には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。(2023年5月)
自然言語処理(NLP)において、コーパスは文やテキストの集合であり、言語モデルは文やテキスト全体に対する確率分布である。したがって、コーパスに対する言語モデルのパープレキシティを定義することができる。しかし、NLPでは、より一般的に使われる尺度は単語ごとのパープレキシティ(perplexity per word)であり、次のように定義される。ここで、 はコーパス内の 個の文、 はコーパス内の単語数である。
コーパスの平均的な文 xi が言語モデルに応じて の確率を持つとする。そうすると、1文あたり 2190 という膨大なモデルパープレキシティを生じる。ただし、文の長さで正規化する方法が一般的である。たとえば、テストサンプルの文が 1,000 語で、1単語あたり 7.95 ビットで符号化できたとした場合、1単語あたり 27.95 = 247 のモデルパープレキシティを得ることができる。言い換えれば、モデルはテストデータ上で、各単語の 247 の可能性の中から一様に独立して選択しなければならないのと同じくらい混乱している。
ブラウン・コーパス
1992年に発表されたブラウン・コーパス(さまざまなトピックやジャンルの100万語のアメリカ英語)の最小パープレキシティは、実に1単語あたり約 247 であり、トライグラムモデルを使用した場合の交差エントロピーは、log2247 = 7.95 ビット/単語、または 1.75 ビット/文字に相当する[1]。より専門的なコーパスの場合は、予測可能性が高くなるために、より低いパープレキシティを達成することがよくある。
ところが、ブラウン・コーパスの次の単語が「the」であると単純に推測した場合の精度は 7% になり、予測可能性の尺度としてパープレキシティを単純に使用した 1/247 = 0.4% ではない。この推定値は、ブラウン・コーパスのユニグラム統計に基づくもので、パープレキシティ 247 を生成したトライグラム統計に基づくものではない。トライグラム統計を使用すると正しい推測の可能性はさらに向上する。
脚注
- ^ Brown, Peter F. (March 1992). “An Estimate of an Upper Bound for the Entropy of English”. Computational Linguistics 18 (1) 2007年2月7日閲覧。.
関連項目
- 統計モデル検証 - 選択した統計モデルが適切か否かを評価する作業
- パープレキシティのページへのリンク