パープレキシティとは？わかりやすく解説

情報理論において、パープレキシティ（英: perplexity）は、確率分布や確率モデルがサンプルをどの程度正確に予測するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。

確率分布のパープレキシティ

離散確率分布 $p$

この節の一部（言語モデルの革命的な進歩にもかかわらず、2007年以来更新されていない。に関わる部分）は更新が必要とされています。
この節には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。（2023年5月）

自然言語処理（NLP）において、コーパスは文やテキストの集合であり、言語モデルは文やテキスト全体に対する確率分布である。したがって、コーパスに対する言語モデルのパープレキシティを定義することができる。しかし、NLPでは、より一般的に使われる尺度は単語ごとのパープレキシティ（perplexity per word）であり、次のように定義される。 $\left(\prod _{i=1}^{n}q(s_{i})\right)^{-1/N}$ ここで、 $s_{1},...,s_{n}$ はコーパス内の $n$ 個の文、 $N$ はコーパス内の単語数である。

コーパスの平均的な文 x_i が言語モデルに応じて $2^{-190}$ の確率を持つとする。そうすると、1文あたり 2¹⁹⁰ という膨大なモデルパープレキシティを生じる。ただし、文の長さで正規化する方法が一般的である。たとえば、テストサンプルの文が 1,000 語で、1単語あたり 7.95 ビットで符号化できたとした場合、1単語あたり 2^7.95 = 247 のモデルパープレキシティを得ることができる。言い換えれば、モデルはテストデータ上で、各単語の 247 の可能性の中から一様に独立して選択しなければならないのと同じくらい混乱している。

ブラウン・コーパス

1992年に発表されたブラウン・コーパス（英語版）（さまざまなトピックやジャンルの100万語のアメリカ英語）の最小パープレキシティは、実に1単語あたり約 247 であり、トライグラムモデルを使用した場合の交差エントロピーは、log₂247 = 7.95 ビット/単語、または 1.75 ビット/文字に相当する^[1]。より専門的なコーパスの場合は、予測可能性が高くなるために、より低いパープレキシティを達成することがよくある。

ところが、ブラウン・コーパスの次の単語が「the」であると単純に推測した場合の精度は 7% になり、予測可能性の尺度としてパープレキシティを単純に使用した 1/247 = 0.4% ではない。この推定値は、ブラウン・コーパスのユニグラム（英語版）統計に基づくもので、パープレキシティ 247 を生成したトライグラム統計に基づくものではない。トライグラム統計を使用すると正しい推測の可能性はさらに向上する。