bigram
bigramとは、任意の文字列が2文字だけ続いた文字列のことである。
任意の文書や文字列などにおける任意のn文字の連続は、n-gramと呼ばれる。この内、1文字続きのものはunigram、2文字続きのものはbigram、3文字続きのものはtrigram、と特に呼ばれ、4文字以上のものは、単に4-gram、5-gramと表現されることが多い。
全文検索システムなどでは、形態素解析によるインデキシングによる検索漏れを回避するために、分かち書きの手法としてbigramが使われることもある。
バイグラム
(bigram から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/25 05:01 UTC 版)
バイグラム(ダイグラム、英: bigram, digram)とは、ある文章の文字列を連続する三要素ごとに分割する自然言語処理の手法である。これは任意のn要素に分割するnグラムにおける "n" を "2" としたものである。
文字列におけるバイグラムの頻度分布は計算言語学や暗号学、音声認識などさまざまな分野での基本的な統計的手法として応用されている。
応用
バイグラムやnグラムなどの手法は音声認識では最も用いられてきた手法である[1]。
暗号学におけるバイグラム頻度分析では暗号文解読のために使用されることがある。頻度分析も参照。また、バイグラムの出現頻度は統計的言語同定の手法として用いられる。
ロゴロジーやレクリエーション言語学ではバイグラムが用いられることがある。バイグラムによって検出された二要素の文字列を既存の単語から探し出す取組や[2]、バイグラムで検出された二要素の文字列の中から "logogogue" のような連続する文字を含むものを探し出す取組などが挙げられる[3]。
英語におけるバイグラムの出現頻度
大規模な英語コーパスにおける文字レベルでのバイグラムの出現頻度の上位のものが以下の通りとなる[4]:
th 3.56% of 1.17% io 0.83% he 3.07% ed 1.17% le 0.83% in 2.43% is 1.13% ve 0.83% er 2.05% it 1.12% co 0.79% an 1.99% al 1.09% me 0.79% re 1.85% ar 1.07% de 0.76% on 1.76% st 1.05% hi 0.76% at 1.49% to 1.05% ri 0.73% en 1.45% nt 1.04% ro 0.73% nd 1.35% ng 0.95% ic 0.70% ti 1.34% se 0.93% ne 0.69% es 1.34% ha 0.93% ea 0.69% or 1.28% as 0.87% ra 0.69% te 1.20% ou 0.87% ce 0.65%
脚注
- ^ Collins, Michael John (1996-06-24). “A new statistical parser based on bigram lexical dependencies”. Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. pp. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888 2018年10月9日閲覧。
- ^ Cohen, Philip M. (1975). “Initial Bigrams”. Word Ways 8 (2) 2016年9月11日閲覧。.
- ^ Corbin, Kyle (1989). “Double, Triple, and Quadruple Bigrams”. Word Ways 22 (3) 2016年9月11日閲覧。.
- ^ “English Letter Frequency Counts: Mayzner Revisited or ETAOIN SRHLDCU”. norvig.com. 2019年10月28日閲覧。
関連項目
- bigramのページへのリンク