trigram
トライグラム
(trigram から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/25 05:05 UTC 版)
![]() |
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2009年12月)
|
トライグラム(トリグラム、英: Trigram)とは、ある文章の文字列を連続する三要素ごとに分割する自然言語処理の手法である。これは任意のn要素に分割するnグラムにおける "n" を "3" としたものである。トライグラムは自然言語処理の分野では文書の統計分析のために、また暗号理論では暗号や符号の制御と解析のために利用されている。
出現頻度
様々なサンプルサイズ、または著者、詩、SF、技術文書のような様々な文書形式、および書き手のレベル(子供向けと大人向けの物語、軍事命令、レシピ)から連続する文字列を抽出することで、これらの分析によって簡単に順位付けと頻度を求めることが出来るため、コンテキストは重要である。
最も単純な暗号解読頻度分析により、英語における最も一般的な文字レベルのトライグラムは以下の通りである[1][2]:
順位[1] | トライグラム | 出現頻度[3] |
---|---|---|
1 | the | 1.81% |
2 | and | 0.73% |
3 | tha | 0.33% |
4 | ent | 0.42% |
5 | ing | 0.72% |
6 | ion | 0.42% |
7 | tio | 0.31% |
8 | for | 0.34% |
9 | nde | |
10 | has | |
11 | nce | |
12 | edt | |
13 | tis | |
14 | oft | 0.22% |
15 | sth | 0.21% |
16 | men |
電報で送信される暗号化されたメッセージではしばしば句読点や空白が省略されるため、このようなメッセージに対する暗号学的頻度分析には単語レベルでのトライグラムが行われる。トライグラムの実行により、記号などの省略によって実際には意味をなさないような文字列の "edt" が頻繁に出現することとなる。
例
次の文章 "the quick red fox jumps over the lazy brown dog" を単語レベルでトライグラムを行った例が以下の通りである:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
また、上記の文章の単語レベルでのトライグラムの一要素 "the quick red" を文字レベルでのトライグラムを行った例は以下の通りとなる。ただし、"_" は空白記号を表す。
the he_ e_q _qu qui uic ick ck_ k_r _re red
脚注
- ^ a b Lewand, Robert (2000). Cryptological Mathematics. The Mathematical Association of America. p. 37. ISBN 978-0-88385-719-9
- ^ Linton, Tom (2001年). “Relative Frequencies of Letters in General English Plain text”. Central College. 2007年1月22日時点のオリジナルよりアーカイブ。2025年6月23日閲覧。
- ^ “English Letter Frequencies”. Practical Cryptography. 2025年6月23日閲覧。
関連項目
- trigramのページへのリンク