パープレキシティとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > パープレキシティの意味・解説 

パープレキシティ

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/23 04:01 UTC 版)

情報理論において、パープレキシティ: perplexity)は、確率分布確率モデルサンプルをどの程度正確に予測するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。

確率分布のパープレキシティ

離散確率分布

この節の一部(言語モデルの革命的な進歩にもかかわらず、2007年以来更新されていない。に関わる部分)は更新が必要とされています。
この節には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。2023年5月

自然言語処理(NLP)において、コーパスは文やテキストの集合であり、言語モデルは文やテキスト全体に対する確率分布である。したがって、コーパスに対する言語モデルのパープレキシティを定義することができる。しかし、NLPでは、より一般的に使われる尺度は単語ごとのパープレキシティ(perplexity per word)であり、次のように定義される。ここで、 はコーパス内の 個の文、 はコーパス内の単語数である。

コーパスの平均的な文 xi が言語モデルに応じて の確率を持つとする。そうすると、1文あたり 2190 という膨大なモデルパープレキシティを生じる。ただし、文の長さで正規化する方法が一般的である。たとえば、テストサンプルの文が 1,000 語で、1単語あたり 7.95 ビットで符号化できたとした場合、1単語あたり 27.95 = 247 のモデルパープレキシティを得ることができる。言い換えれば、モデルはテストデータ上で、各単語の 247 の可能性の中から一様に独立して選択しなければならないのと同じくらい混乱している。

ブラウン・コーパス

1992年に発表されたブラウン・コーパス英語版(さまざまなトピックやジャンルの100万語のアメリカ英語)の最小パープレキシティは、実に1単語あたり約 247 であり、トライグラムモデルを使用した場合の交差エントロピーは、log2247 = 7.95 ビット/単語、または 1.75 ビット/文字に相当する[1]。より専門的なコーパスの場合は、予測可能性が高くなるために、より低いパープレキシティを達成することがよくある。

ところが、ブラウン・コーパスの次の単語が「the」であると単純に推測した場合の精度は 7% になり、予測可能性の尺度としてパープレキシティを単純に使用した 1/247 = 0.4% ではない。この推定値は、ブラウン・コーパスのユニグラム英語版統計に基づくもので、パープレキシティ 247 を生成したトライグラム統計に基づくものではない。トライグラム統計を使用すると正しい推測の可能性はさらに向上する。

脚注

  1. ^ Brown, Peter F. (March 1992). “An Estimate of an Upper Bound for the Entropy of English”. Computational Linguistics 18 (1). https://www.cs.cmu.edu/~roni/11761/PreviousYearsHandouts/gauntlet.pdf 2007年2月7日閲覧。. 

関連項目

  • 統計モデル検証英語版 - 選択した統計モデルが適切か否かを評価する作業



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  パープレキシティのページへのリンク

辞書ショートカット

すべての辞書の索引

「パープレキシティ」の関連用語

パープレキシティのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



パープレキシティのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのパープレキシティ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS