bigramとは? わかりやすく解説

Weblio 辞書 > コンピュータ > IT用語辞典 > bigramの意味・解説 

bigram

読み方バイグラム

bigramとは、任意の文字列が2文字だけ続いた文字列のことである。

任意の文書文字列などにおける任意のn文字連続は、n-gram呼ばれるこの内、1文字続きのものはunigram、2文字続きのものはbigram、3文字続きのものはtrigram、と特に呼ばれ、4文字上のものは、単に4-gram、5-gramと表現されることが多い。

全文検索システムなどでは、形態素解析によるインデキシングによる検索漏れ回避するために、分かち書きの手法としてbigramが使われることもある。


バイグラム

(bigram から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/25 05:01 UTC 版)

バイグラム(ダイグラム、: bigram, digram)とは、ある文章の文字列を連続する三要素ごとに分割する自然言語処理の手法である。これは任意のn要素に分割するnグラム英語版における "n" を "2" としたものである。

文字列におけるバイグラムの頻度分布は計算言語学暗号学音声認識などさまざまな分野での基本的な統計的手法として応用されている。

応用

バイグラムやnグラム英語版などの手法は音声認識では最も用いられてきた手法である[1]

暗号学におけるバイグラム頻度分析では暗号文解読のために使用されることがある。頻度分析も参照。また、バイグラムの出現頻度は統計的言語同定の手法として用いられる。

ロゴロジー英語版やレクリエーション言語学ではバイグラムが用いられることがある。バイグラムによって検出された二要素の文字列を既存の単語から探し出す取組や[2]、バイグラムで検出された二要素の文字列の中から "logogogue" のような連続する文字を含むものを探し出す取組などが挙げられる[3]

英語におけるバイグラムの出現頻度

大規模な英語コーパスにおける文字レベルでのバイグラムの出現頻度の上位のものが以下の通りとなる[4]:

th 3.56%       of 1.17%       io 0.83%
he 3.07%       ed 1.17%       le 0.83%
in 2.43%       is 1.13%       ve 0.83%
er 2.05%       it 1.12%       co 0.79%
an 1.99%       al 1.09%       me 0.79%
re 1.85%       ar 1.07%       de 0.76%
on 1.76%       st 1.05%       hi 0.76%
at 1.49%       to 1.05%       ri 0.73%
en 1.45%       nt 1.04%       ro 0.73%
nd 1.35%       ng 0.95%       ic 0.70%
ti 1.34%       se 0.93%       ne 0.69%
es 1.34%       ha 0.93%       ea 0.69%
or 1.28%       as 0.87%       ra 0.69%
te 1.20%       ou 0.87%       ce 0.65%

脚注

  1. ^ Collins, Michael John (1996-06-24). “A new statistical parser based on bigram lexical dependencies”. Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. pp. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. http://www.aclweb.org/anthology/P96-1025 2018年10月9日閲覧。 
  2. ^ Cohen, Philip M. (1975). “Initial Bigrams”. Word Ways 8 (2). http://digitalcommons.butler.edu/wordways/vol8/iss2/8 2016年9月11日閲覧。. 
  3. ^ Corbin, Kyle (1989). “Double, Triple, and Quadruple Bigrams”. Word Ways 22 (3). http://digitalcommons.butler.edu/wordways/vol22/iss3/8 2016年9月11日閲覧。. 
  4. ^ English Letter Frequency Counts: Mayzner Revisited or ETAOIN SRHLDCU”. norvig.com. 2019年10月28日閲覧。

関連項目



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「bigram」の関連用語

bigramのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



bigramのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【bigram】の記事を利用しております。
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのバイグラム (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS