文字の使用頻度とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > 文字の使用頻度の意味・解説 

文字の出現頻度

(文字の使用頻度 から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/05/08 13:03 UTC 版)

英語における文字の出現頻度

文字の出現頻度(もじのしゅつげんひんど、: Letter frequency)とは、書記言語においてアルファベットひらがな漢字)などの文字が出現する回数の平均をまとめたものを指す。文字の頻度分析アラブ人数学者のアル=キンディー(801–873)が暗号解読を行うために確立したことから始まる[1]。またヨーロッパにおいては文字の頻度分析は1450年に活字が発明され、活字に必要な各字形の量を推定するために重要性を増した[2]。一方言語学者の間では未知の表記体系に対する言語同定英語版の技法として文字の頻度分析を行っている[3]

文字の出現頻度や頻度分析暗号文ハングマンスクラブルWordleのような単語パズルゲームにおいて利用されており[4]、米国のテレビ番組『ホイール・オブ・フォーチュン』においても利用されている[5]エドガー・アラン・ポーの小説『黄金虫』では英文字の出現頻度の知見を活かして暗号文の解読を行った記述がある最も古い文献の一つであり、キャプテン・キッド秘蔵の財宝のありかを示すメッセージを頻度分析によって解読したことが書かれている[6]

ハーバート・ジム英語版は暗号学入門著書『Codes and Secret Writing』において英語の出現頻度は "ETAON RISHD LFCMU GYPWB VKJXZQ" の順序で出現頻度が高いとし、2文字(連接文字)に関しては "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO"、同じ文字が連続して出現する順序は "LL EE SS OO TT FF RR NN PP CC" である[7]。なお、出現頻度の加算方法の違いによって数値は多少変動する場合がある。

文字の出現頻度は一部のキーボード配列のデザインにも影響を与えている[8]ブリッケンデルファー型タイプライターDvorak配列Colemak配列英語版などは出現頻度の高い文字をホームポジションに配置している。

背景

カリフォルニア・ジョブ・ケース英語版は19世紀に発明された印刷時において活字を収納するケースであり、文字の普遍性に応じて各文字のスペースが区切られている[9]

文書中における文字の出現頻度は暗号解読において研究され、特にアラブ人数学者のアル=キンディー(801–873)が頻度分析の手法を確立したことで広まったとされる(頻度分析を用いて解読できる暗号は頻度分析の前から存在するガイウス・ユリウス・カエサルが発明したシーザー暗号が挙げられ[10]、頻度分析自体はより以前から研究されていた可能性がある。)[1]。1450年にはヨーロッパにおいて活版印刷が発明され、活字ケースの区画スペースの大きさがそれぞれ違うことからも読み取れるように、活版印刷に必要な各文字の字形の量を推定する必要が生じたことで文字の出現頻度分析の重要性が増した[2]

すべての言語において厳密な文字の出現頻度の分布は文字の書き手によって使用する文法や単語が異なるため、求めることは不可能である。しかしながら、ほとんどの言語において一定量の文書内での文字の出現頻度は特有の分布が現れる。例として、(互いに理解することが困難とされ、)極端な言語の変遷を経た古英語と現代英語それぞれの文字の出現頻度においても類似した特徴を持つことがある[11]。聖書のある一節における両者の文字の出現頻度は高い順に、古英語: enaid sorhm tgþlwu æcfy ðbpxz、現代英語: eotha sinrd luymw fgcbp kvjqxz となり[12]、違いとしては第一にそれぞれでのみ使用されている文字が存在することが挙げられるが、両者とも e が最も出現頻度の高い文字である[13]

英語圏でのライノタイプを使用していた職人の長年の経験と習慣から文字の出現頻度の高い順から低い順に etaoin shrdlu cmfwyp vbgkqj xz であると考えられており[14]、フランス語圏においては elaoin sdrétu cmfhyp vbgwqj xz の出現頻度であると考えられていた[15]

モールス符号。Eを短点一つ、Aを長点一つ...と文字の出現頻度が高い順に短い符号が割り当てられている[16]

各アルファベットのモールス符号を通信にかかる時間が短いまとまり順に並べると e it san hurdm wgvlfbk opxcz jyq となる[注釈 1]。文字の出現頻度はMurray Codeのような他の電信システムにおいても考慮されている[17]

文字の出現頻度における同様の利用例としてはハフマン符号のような現代のデータ圧縮などが挙げられる[18]

文字の出現頻度は単語の出現頻度英語版と同様に書き手や記述されている内容によって異なった出現頻度となる[19]。フィクション小説を例としてみると、文章の時制が過去形で書かれることが多くなることから、d の出現頻度が高くなるとされている。またX線に関するエッセイの文字の出現頻度は x が異様に高くなることが考えられる。また執筆者の言葉の言い回しからも文字の出現頻度は影響を受けるとされる。例として、アーネスト・ヘミングウェイの文体とウィリアム・フォークナーの文体は明確に異なっている。単文字、bigram英語版trigram英語版、単語の出現頻度、単語の長さ、文章の長さを求めることで文章の表現方法が類似している著者の作品に対して、識別することが可能となる[20]

より厳密な文字の出現頻度は大規模な文書データを分析することで求めることができる。大規模な文書データに対する分析は現代のコンピュータと大規模なテキストコーパスを使用することで容易に行うことができる。より具体的には(出版記事、宗教文書、学術文書、フィクション小説など)さまざまな資料をもとに出現頻度を求めることができ、フィクション小説においては hi の出現頻度の順は異なる位置となり、h の方がより普遍的に出現する文字とされている。

また同じ言語を使用する地域ごとにも文字の出現頻度はそれぞれ違いが存在している。例として、米国では "analyze"、"apologize"、"recognize" のように z が含まれた単語を用いているが、英国においてはこれらの単語がそれぞれ "analyse"、"apologise"、"recognise" のように異なった綴りで書かれている[21]。このことから米国における z の出現頻度は英国と比べて高くなっている。

アルファベットにおいて出現頻度の高い上位十二文字の割合は約 80% にも達する[22]。また上位八文字のみについても出現頻度は 65% に達する。文字の出現頻度はいくつかのランク関数によく適合し、中でも2つパラメータを持つコチョのベータランク関数が最も適合する[23]。パラメータを持たないランク関数も文字の出現頻度の分布に適合される(これらのランク関数はタンパク質構造におけるアミノ塩基の出現頻度を表す際にも使用されている[24][25]VIC暗号英語版ストラドリング・チェッカーボード英語版に基づいた暗号を使用するスパイは通常 "a sin to err"(2つ目の "r" を省略)[26][27] や "at one sir"[28] といった語呂合わせを用いて出現頻度の高い八文字を記憶する。

日本語における文字の出現頻度

平仮名

平仮名の出現頻度は以下の表の通りである[29][30]。分析に使用したデータにおける平仮名の総数は 20,711,361文字である[29]

順位 平仮名 度数 割合
1 1,918,313 9.262% 9.262
 
2 1,108,840 5.354% 5.354
 
3 1,067,566 5.155% 5.155
 
4 1,060,284 5.119% 5.119
 
5 937,811 4.528% 4.528
 
6 936,356 4.521% 4.521
 
7 927,938 4.480% 4.48
 
8 916,652 4.425% 4.425
 
9 860,742 4.156% 4.156
 
10 848,132 4.095% 4.095
 
11 764,834 3.693% 3.693
 
12 758,316 3.661% 3.661
 
13 720,156 3.477% 3.477
 
14 537,294 2.594% 2.594
 
15 467,350 2.257% 2.257
 
16 450,805 2.177% 2.177
 
17 423,294 2.044% 2.044
 
18 396,142 1.913% 1.913
 
19 352,965 1.704% 1.704
 
20 340,654 1.645% 1.645
 
21 333,999 1.613% 1.613
 
22 312,227 1.508% 1.508
 
23 280,911 1.356% 1.356
 
24 278,599 1.345% 1.345
 
25 258,960 1.250% 1.25
 
26 233,505 1.127% 1.127
 
27 223,806 1.081% 1.081
 
28 221,960 1.072% 1.072
 
29 204,256 0.986% 0.986
 
30 199,362 0.963% 0.963
 
31 196,555 0.949% 0.949
 
32 190,068 0.918% 0.918
 
33 163,664 0.790% 0.79
 
34 154,206 0.745% 0.745
 
35 153,999 0.744% 0.744
 
36 146,156 0.706% 0.706
 
37 131,611 0.635% 0.635
 
38 123,077 0.594% 0.594
 
39 99,183 0.479% 0.479
 
40 89,264 0.431% 0.431
 
41 83,444 0.403% 0.403
 
42 73,467 0.355% 0.355
 
43 72,228 0.349% 0.349
 
44 65,870 0.318% 0.318
 
45 56,857 0.275% 0.275
 
46 56,005 0.270% 0.27
 
47 53,256 0.257% 0.257
 
48 49,126 0.237% 0.237
 
49 48,752 0.235% 0.235
 
50 47,013 0.227% 0.227
 
51 32,312 0.156% 0.156
 
52 31,212 0.151% 0.151
 
53 26,965 0.130% 0.13
 
54 23,490 0.113% 0.113
 
55 23,280 0.112% 0.112
 
56 21,549 0.104% 0.104
 
57 19,865 0.096% 0.096
 
58 19,148 0.092% 0.092
 
59 14,425 0.070% 0.07
 
60 13,125 0.063% 0.063
 
61 12,402 0.060% 0.06
 
62 12,108 0.058% 0.058
 
63 11,606 0.056% 0.056
 
64 11,522 0.056% 0.056
 
65 10,047 0.049% 0.049
 
66 8,486 0.041% 0.041
 
67 6,893 0.033% 0.033
 
68 5,124 0.025% 0.025
 
69 4,349 0.021% 0.021
 
70 2,755 0.013% 0.013
 
71 1,608 0.008% 0.008
 
72 1,315 0.006% 0.006
 
73 986 0.005% 0.005
 
74 477 0.002% 0.002
 
75 125 0.001% 0.001
 
76 106 0.001% 0.001
 
77 82 0.000%
78 75 0.000%
79 48 0.000%
80 21 0.000%
81 21 0.000%
82 3 0.000%
83 1 0.000%

片仮名

片仮名の出現頻度は以下の表の通りである[31][30]。分析に使用したデータにおける片仮名の総数は 3,608,288文字である[31]

順位 片仮名 度数 割合
1 290,948 8.063% 8.063
 
2 189,442 5.250% 5.25
 
3 178,214 4.939% 4.939
 
4 162,802 4.512% 4.512
 
5 127,845 3.543% 3.543
 
6 120,807 3.348% 3.348
 
7 117,203 3.248% 3.248
 
8 106,744 2.958% 2.958
 
9 98,209 2.722% 2.722
 
10 86,894 2.408% 2.408
 
11 82,982 2.300% 2.3
 
12 80,626 2.235% 2.235
 
13 75,319 2.087% 2.087
 
14 75,301 2.087% 2.087
 
15 74,257 2.058% 2.058
 
16 61,171 1.695% 1.695
 
17 61,115 1.694% 1.694
 
18 60,608 1.680% 1.68
 
19 60,230 1.669% 1.669
 
20 58,724 1.628% 1.628
 
21 56,123 1.555% 1.555
 
22 54,159 1.501% 1.501
 
23 53,404 1.480% 1.48
 
24 50,758 1.407% 1.407
 
25 48,437 1.342% 1.342
 
26 44,970 1.246% 1.246
 
27 44,462 1.232% 1.232
 
28 40,433 1.121% 1.121
 
29 39,608 1.098% 1.098
 
30 39,323 1.090% 1.09
 
31 39,202 1.086% 1.086
 
32 38,711 1.073% 1.073
 
33 38,047 1.054% 1.054
 
34 36,458 1.010% 1.01
 
35 35,920 0.995% 0.995
 
36 35,416 0.982% 0.982
 
37 34,883 0.967% 0.967
 
38 34,718 0.962% 0.962
 
39 33,747 0.935% 0.935
 
40 32,665 0.905% 0.905
 
41 32,616 0.904% 0.904
 
42 29,262 0.811% 0.811
 
43 28,144 0.780% 0.78
 
44 26,651 0.739% 0.739
 
45 26,396 0.732% 0.732
 
46 24,541 0.680% 0.68
 
47 23,742 0.658% 0.658
 
48 22,755 0.631% 0.631
 
49 22,462 0.623% 0.623
 
50 22,061 0.611% 0.611
 
51 21,839 0.605% 0.605
 
52 21,784 0.604% 0.604
 
53 20,784 0.576% 0.576
 
54 20,633 0.572% 0.572
 
55 20,070 0.556% 0.556
 
56 19,572 0.542% 0.542
 
57 19,240 0.533% 0.533
 
58 18,692 0.518% 0.518
 
59 18,204 0.505% 0.505
 
60 17,817 0.494% 0.494
 
61 17,731 0.491% 0.491
 
62 14,881 0.412% 0.412
 
63 13,931 0.386% 0.386
 
64 12,526 0.347% 0.347
 
65 10,732 0.297% 0.297
 
66 10,318 0.286% 0.286
 
67 10,144 0.281% 0.281
 
68 10,121 0.280% 0.28
 
69 7,689 0.213% 0.213
 
70 7,289 0.202% 0.202
 
71 7,129 0.198% 0.198
 
72 6,653 0.184% 0.184
 
73 6,481 0.180% 0.18
 
74 6,245 0.173% 0.173
 
75 2,897 0.080% 0.08
 
76 2,640 0.073% 0.073
 
77 1,145 0.032% 0.032
 
78 1,050 0.029% 0.029
 
79 149 0.004% 0.004
 
80 127 0.004% 0.004
 
81 122 0.003% 0.003
 
82 73 0.002% 0.002
 
83 40 0.001% 0.001
 
84 14 0.000%
85 9 0.000%
86 2 0.000%

漢字

文化庁によりまとめられた日本語における漢字の出現頻度上位50文字は以下の表の通りである[32]。分析に使用されたデータは総数177,276,398文字であり、そのうち漢字は51,258,216文字であった[33]。出現頻度の高い上位100文字はすべて常用漢字である[34]

順位 漢字 割合
1 1.156%
2 0.996%
3 0.737%
4 0.709%
5 0.668%
6 0.629%
7 0.614%
8 0.612%
9 0.605%
10 0.594%
順位 漢字 割合
11 0.586%
12 0.539%
13 0.536%
14 0.535%
15 0.532%
16 0.522%
17 0.496%
18 0.493%
19 0.482%
20 0.478%
順位 漢字 割合
21 0.475%
22 0.467%
23 0.461%
24 0.445%
25 0.432%
26 0.426%
27 0.407%
28 0.389%
29 0.381%
30 0.379%
順位 漢字 割合
31 0.372%
32 0.371%
33 0.366%
34 0.357%
35 0.355%
36 0.348%
37 0.347%
38 0.341%
39 0.333%
40 0.332%
順位 漢字 割合
41 0.331%
42 0.322%
43 0.319%
44 0.314%
45 0.312%
46 0.308%
47 0.304%
48 0.304%
49 0.300%
50 0.297%
順位 漢字 割合
51 0.295%
52 0.292%
53 0.291%
54 0.291%
55 0.287%
56 0.282%
57 0.281%
58 0.277%
59 0.273%
60 0.273%
順位 漢字 割合
61 0.273%
62 0.268%
63 0.268%
64 0.266%
65 0.265%
66 0.261%
67 0.258%
68 0.249%
69 0.247%
70 0.247%
順位 漢字 割合
71 0.244%
72 0.244%
73 0.243%
74 0.241%
75 0.237%
76 0.236%
77 0.232%
78 0.228%
79 0.225%
80 0.225%
順位 漢字 割合
81 0.222%
82 0.221%
83 0.221%
84 0.218%
85 0.217%
86 0.114%
87 0.213%
88 0.213%
89 0.213%
90 0.210%
順位 漢字 割合
91 0.210%
92 0.210%
93 0.209%
94 0.208%
95 0.206%
96 0.205%
97 0.203%
98 0.202%
99 0.202%
100 0.200%

文字種別の出現頻度

日本語における記号、数字、平仮名、片仮名、漢字、アルファベットの文字の種類別の出現頻度は以下の通りとなる。

調査年 文字種別出現頻度 詳細 出典
平仮名 片仮名 漢字 アルファベット 記号 数字
1964年 56.0% 6.3% 35.9% 0.2% 1.6% 1964年当時の雑誌九十種に対する調査。総数83,923文字。 [35]
1981年 40.2% 4.9% 40.7% 2.0% 8.3% 3.9% 1981年当時のRICOHが保有する事務文書に対する調査。総数76,100文字。 [36]
1994年 35.7% 16.0% 26.9% 3.9% 17.6% 1994年当時の雑誌七十種に対する調査。総数2,116,736文字。 [35]
2000年 34.06% 6.34% 41.46% 0.46% 15.58% 2.10% 1993年の新聞記事に対する調査。総数5,500万文字。 [37]

英語における文字の出現頻度

文字 英語における相対出現頻度[38]
A 8.2% 8.2
 
B 1.5% 1.5
 
C 2.8% 2.8
 
D 4.3% 4.3
 
E 12.7% 12.7
 
F 2.2% 2.2
 
G 2.0% 2
 
H 6.1% 6.1
 
I 7.0% 7
 
J 0.15% 0.15
 
K 0.77% 0.77
 
L 4.0% 4
 
M 2.4% 2.4
 
N 6.7% 6.7
 
O 7.5% 7.5
 
P 1.9% 1.9
 
Q 0.095% 0.095
 
R 6.0% 6
 
S 6.3% 6.3
 
T 9.1% 9.1
 
U 2.8% 2.8
 
V 0.98% 0.98
 
W 2.4% 2.4
 
X 0.15% 0.15
 
Y 2.0% 2
 
Z 0.074% 0.074
 

文字の相対出現頻度

英話者が長期間使用したキーボード。E、O、T、H、A、S、I、N、R のキーには激しい摩耗が見られ、D、L、U、Y、M、W、F、G、C、B、P のキーにはある程度の摩耗が見られ、K、V、J、Q、X、Z のキーには摩耗がほとんど見られない。

文字の出現頻度を算出する方法は大きく三種類存在し、各方法によって文字の出現頻度の分布は大きく異なってくる。一つ目は辞書の見出し語として書かれている基本語英語版ごとに文字の出現頻度を加算する方法である。以下の節ではこの方法により文字の出現頻度を求めている。二つ目は基本語の "abstract" を "abstracts"、"abstracted"、"abstracting" のように語形変化の単語ごとに文字の出現頻度を加算する方法である。この方法では、インターネット上で頻出する英単語のリストから文字の出現頻度を求める場合に、s のような文字の出現頻度がより現れるとされる。すなわち、s は複数形や三人称単数現在形の動詞中に付け加えられる文字であるため、非基本語の単語中に普遍的に現れる文字となっている。三つ目は実際の文書中に使用されている単語そのままを文字の出現頻度として加算する方法であり、これにより "the"、"then"、"both"、"this" のような単語の頻出により th の出現頻度がより現れるとされる。そして、絶対的な文字の出現頻度が求められるこの方法ではキーボードのレイアウトや古来の印刷機における文字の頻出度合いについて求めることができる。

英英辞典『Concise Oxford dictionary』を辞典内における単語の頻出度合を無視して文字の出現頻度を分析すると、順番は "EARIOTNSLCUDPMHGBFYWKVXZJQ" であった[39]

この出現頻度順はロベルト・ルワンド著『Cryptological Mathematics』を引用したパベル・ミツカ氏のウェブサイトにまとめられていたものである[40]

ルワンドによると、文字の出現頻度の高い順から並べると、etaoinshrdlcumwfgypbvkjxqz となることが言及されている。このルワンドの出現頻度順はコーネル大学の「Math Explorer's Project」による40000文字に対する文字の出現頻度順とは異なった並びとなっている[41]

英語における空白記号の出現頻度は英文字の出現頻度が最も高い e の約2倍となっており[42]、非アルファベット文字(数字、句読点など)総計の出現頻度は ta の間となる4番目(空白記号も含めた順位)に位置している[43]

単語の頭文字・末尾の文字の相対出現頻度

相対出現頻度[44]
文字 英単語の頭文字
A 11.7%
B 4.6%
C 4.8%
D 2.5%
E 2.9%
F 4.1%
G 1.7%
H 5.4%
I 5.8%
J 0.54%
K 0.49%
L 2.4%
M 3.9%
N 2.2%
O 7.3%
P 3.9%
Q 0.19%
R 2.6%
S 6.9%
T 16.2%
U 1.2%
V 0.65%
W 6.1%
X 0.002%
Y 0.82%
Z 0.021%
文字 英単語の末尾の文字
A 2.9%
B 0.1%
C 0.51%
D 10.6%
E 20.4%
F 4.3%
G 3.1%
H 2.6%
I 0.6%
J 0.01%
K 0.92%
L 3.2%
M 1.7%
N 8.9%
O 4.3%
P 0.6%
Q 0.001%
R 6%
S 12.5%
T 9.3%
U 0.4%
V 0.03%
W 0.9%
X 0.127%
Y 5.96%
Z 0.029%

単語の頭文字の出現頻度を分析することは物理的空間におけるファイルや索引の量を割り当てるために重要視されている[45]。アルファベット 26 文字に対応したファイリングキャビネット英語版の引き出しを準備する場合に、各文字ごとに一つの引き出し、つまり 1:1 の割当を行うのではなく、頭文字の出現頻度に沿った引き出しの割当を行うことが合理的であると考えられる。すなわち、出現頻度の低い VWXYZ をまとめて一つの引き出しに割り当てる、出現頻度の高い s, a, c では Aa-An、Ao-Az、Ca-Cj、Ck-Cz、Sa-Si、Sj-Sz のように複数の引き出しを割り当てることが考えられる。同様の事例としては複数の巻に分かれた百科事典の構成や図書館において書籍の識別の名前の頭文字の分布を均等にするための Cutter number が挙げられる[46]

英単語全体および頭文字の出現頻度の分布は両者ともにジップ分布に従い、またユール分布英語版にも十分従うことが知られている[47]

一般的に数字の最初の桁の出現頻度の分布は数字全体の分布と比べて有意に差があるとされており、これはベンフォードの法則として知られている(ベンフォードの法則節を参照)[48]

ピーター・ノーヴィグ光学文字認識(OCR)を用いてGoogle Booksのデータにおける100,000単語以上出現する単語を対象にした英単語の頭文字の出現頻度が分析された[49]

ラテン文字を使用する言語における文字の相対出現頻度

文字 英語[50] フランス語[51] ドイツ語[52] スペイン語[53] ポルトガル語[54] イタリア語[55] トルコ語[56] スウェーデン語[57] ポーランド語[58] オランダ語[59] デンマーク語[60] アイスランド語[61] フィンランド語[62] チェコ語[63] ハンガリー語[64] ウェールズ語[65] リトアニア語[66]
a 8.672% 7.636% 6.516% 11.525% 14.634% 11.745% 11.920% 9.383% 8.965% 7.49% 6.025% 10.110% 12.217% 6.219% 8.89% 10.241% 11.191%
b 1.485% 0.901% 1.886% 2.215% 1.043% 0.927% 2.844% 1.535% 1.482% 1.58% 2.000% 1.043% 0.281% 1.558% 1.94% 1.867% 1.484%
c 3.424% 3.260% 2.732% 4.019% 3.882% 4.501% 0.963% 1.486% 3.988% 1.24% 0.565% ~0% 0.281% 1.607% 0.646% 1.776% 0.602%
d 3.904% 3.669% 5.076% 5.010% 4.992% 3.736% 4.706% 4.702% 3.293% 5.93% 5.858% 1.575% 1.043% 3.602% 1.92% 5.136% 2.580%
e 12.155% 14.715% 16.396% 13.702% 13.101% 11.792% 8.912% 10.149% 7.921% 18.91% 15.453% 6.418% 7.968% 7.695% 11.6% 8.116% 5.621%
f 2.302% 1.066% 1.656% 0.692% 1.023% 1.153% 0.461% 2.027% 0.312% 0.81% 2.406% 3.013% 0.194% 0.273% 0.548% 2.675% 0.347%
g 1.945% 0.866% 3.009% 1.768% 1.303% 1.644% 1.253% 2.862% 1.377% 3.40% 4.077% 4.241% 0.392% 0.273% 3.79% 3.412% 1.795%
h 4.745% 0.937% 4.577% 1.973% 1.281% 0.136% 1.212% 2.090% 1.072% 2.38% 1.621% 1.871% 1.851% 1.271% 1.26% 1.479% 0.276%
i 7.532% 7.529% 6.550% 6.247% 6.186% 10.143% 8.600%* 5.817% 8.286% 6.50% 6.000% 7.578% 10.817% 4.353% 4.25% 7.569% 12.959%
j 0.187% 0.813% 0.268% 0.493% 0.379% 0.011% 0.034% 0.614% 2.343% 1.46% 0.730% 1.144% 2.042% 2.119% 1.48% 0.078% 2.338%
k 0.600% 0.074% 1.417% 0.026% 0.015% 0.009% 4.683% 3.140% 3.411% 2.25% 3.395% 3.314% 4.973% 3.737% 4.85% 0.040% 4.171%
l 4.237% 5.456% 3.437% 4.967% 2.779% 6.510% 5.922% 5.275% 2.136% 3.57% 5.229% 4.532% 5.761% 3.842% 6.71% 3.358% 3.502%
m 2.647% 2.968% 2.534% 3.157% 4.738% 2.512% 3.752% 3.471% 2.911% 2.21% 3.237% 4.041% 3.202% 3.227% 3.82% 2.593% 3.579%
n 7.337% 7.095% 9.776% 6.712% 4.446% 6.883% 7.487% 8.542% 5.600% 10.03% 7.240% 7.711% 8.826% 6.535% 6.82% 8.552% 5.144%
o 7.377% 5.796% 2.594% 8.683% 9.735% 9.832% 2.476% 4.482% 7.590% 6.06% 4.636% 2.166% 5.614% 8.666% 3.65% 6.280% 6.743%
p 2.124% 2.521% 0.670% 2.510% 2.523% 3.056% 0.886% 1.839% 3.101% 1.57% 1.756% 0.789% 1.842% 3.413% 0.48% 0.819% 2.734%
q 0.110% 1.362% 0.018% 0.877% 1.204% 0.505% 0 0.020% 0.003% 0.009% 0.007% 0 0.013% 0.001% ~0% 0.004% 0.005%
r 6.625% 6.693% 7.003% 6.871% 6.530% 6.367% 6.722% 8.431% 4.571% 6.41% 8.956% 8.581% 2.872% 3.697% 2.65% 7.085% 5.669%
s 6.633% 7.948% 7.270% 7.977% 6.805% 4.981% 3.014% 6.590% 4.263% 3.73% 5.805% 5.630% 7.862% 4.516% 6.99% 2.854% 7.881%
t 8.598% 7.244% 6.154% 4.632% 4.336% 5.623% 3.314% 7.691% 3.966% 6.79% 6.862% 4.953% 8.750% 5.727% 6.96% 1.842% 5.332%
u 2.691% 6.311% 4.166% 3.927% 3.639% 2.813% 3.235% 1.919% 2.347% 1.99% 1.979% 4.562% 5.008% 3.144% 0.392% 2.723% 4.586%
v 1.061% 1.838% 0.846% 1.138% 1.575% 2.097% 0.959% 2.415% 0.034% 2.85% 2.332% 2.437% 2.250% 4.662% 2.31% 0.052% 2.656%
w 1.673% 0.049% 1.921% 0.027% 0.037% 0.033% 0 0.142% 4.549% 1.52% 0.069% 0 0.094% 0.009% ~0% 4.642% 0.037%
x 0.202% 0.427% 0.034% 0.515% 0.453% 0.008% 0 0.159% 0.019% 0.036% 0.028% 0.046% 0.031% 0.076% ~0% 0.040% 0.073%
y 1.551% 0.708% 0.039% 1.433% 0.006% 0.020% 3.336% 0.708% 3.857% 0.035% 0.698% 0.900% 1.745% 1.909% 2.56% 8.971% 1.433%
z 0.132% 0.326% 1.134% 0.467% 0.470% 1.181% 1.500% 0.070% 5.620% 1.39% 0.034% 0 0.051% 2.199% 4.3% 0.009% 0.345%
à 0.0005% 0.486% 0 ~0% 0.072% 0.635% 0 0 0 0 0 0 0 0 0 0.000% 0.0003%
â 0.0006% 0.051% 0 0 0.562% ~0% ~0% 0 0 0 0 0 0 0 0 0.147% 0.0002%
á 0.005% 0 0 0.502% 0.118% 0 0 0 0 0 0 1.799% 0 2.236% 3.44% 0.0002% 0.002%
å 0.0007% 0 0 0 0 0 0 1.34% 0 0 1.190% ~0% 0.003% 0 0 0 0.0002%
ä 0.002% 0 0.578% 0 0 0 0 1.80% 0 0 0 0 3.577% 0 0 0.001% 0.001%
ã 0.0005% 0 0 0 0.733% 0 0 0 0 0 0 0 0 0 0 0 0.0003%
ą 0.00009% 0 0 0 0 0 0 0 1.021% 0 0 0 0 0 0 0 0.542%
ā 0.002% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.001%
ă 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0002%
æ 0.0008% 0 0 0 0 0 0 0 0 0 0.872% 0.867% 0 0 0 0 0.0002%
œ 0.00008% 0.018% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
ç 0.001% 0.085% 0 ~0% 0.530% 0 1.156% 0 0 0 0 ~0% 0 0 0 0 0.0004%
ć 0.0006% 0 0 0 0 0 0 0 0.448% 0 0 0 0 0 0 0 0.0003%
č 0.0005% 0 0 0 0 0 0 0 0 0 0 0 0 0.949% 0 0 0.430%
ch 0 0 0 0 0 0 0 0 0 0 0 0 0 1.171% 0 0.949% 0
ď 0 0 0 0 0 0 0 0 0 0 0 0 0 0.022% 0 0 0
dd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.927% 0
ð 0.0004% 0 0 0 0 0 0 0 0 0 0 4.393% 0 0 0 0 0.0001%
è 0.002% 0.271% 0 ~0% 0 0.263% 0 0 0 0 0 0 0 0 0 0.0005% 0.0004%
é 0.011% 1.504% 0 0.433% 0.337% 0 0 0 ~0% 0 0 0.647% 0 1.335% 4.25% 0.0001% 0.004%
ê 0.0003% 0.218% 0 0 0.450% ~0% 0 0 0 0 0 0 0 0 0 0.026% 0.0001%
ë 0.0006% 0.008% 0 0 0 0 0 0 0 0 0 0 0 0 0 0.002% 0.0002%
ė 0.00005% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.664%
ę 0.0001% 0 0 0 0 0 0 0 1.131% 0 0 0 0 0 0 0 0.172%
ě 0.00008% 0 0 0 0 0 0 0 0 0 0 0 0 1.646% 0 0 0
ē 0.0003% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0004%
ff 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.382% 0
ğ 0.0001% 0 0 0 0 0 1.125% 0 0 0 0 0 0 0 0 0 0.0001%
ng 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.366% 0
î 0.0002% 0.045% 0 0 0 ~0% ~0% 0 0 0 0 0 0 0 0 0.008% 0.0001%
ì 0.0001% 0 0 0 0 (0.030%) 0 0 0 0 0 0 0 0 0 0.0001% 0.0001%
í 0.003% 0 0 0.725% 0.132% 0.030% 0 0 0 0 0 1.570% 0 3.270% 0.47% ~0% 0.002%
ï 0.0002% 0.005% 0 0 0 0 0 0 0 0 0 0 0 0 0 0.008% 0
ı 0.0002% 0 0 0 0 0 5.114%* 0 0 0 0 0 0 0 0 0 0.0002%
į 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0.485%
ī 0.0005% 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0.0007%
ł 0.0007% 0 0 0 0 0 0 0 1.746% 0 0 0 0 0 0 0 0.001%
ľ 0 0 0 0 0 0 0 0 0 0 0 0 0 ~0% 0 0 0
ll 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.031% 0
ñ 0.0009% 0 0 0.311% 0 0 0 0 0 0 0 0 0 0 0 0 0.0005%
ń 0.0002% 0 0 0 0 0 0 0 0.185% 0 0 0 0 0 0 0 0.0003%
ň 0 0 0 0 0 0 0 0 0 0 0 0 0 0.081% 0 0 0
ņ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0001%
ò 0.0002% 0 0 0 0 0.002% 0 0 0 0 0 0 0 0 0 0.0002% 0.0001%
ö 0.003% 0 0.443% 0 0 0 0.777% 1.31% 0 0 0 0.777% 0.444% 0 0.784% 0.002% 0.001%
ô 0.0005% 0.023% 0 0 0.635% ~0% 0 0 0 0 0 0 0 0 0 0.101% 0.0001%
ó 0.003% 0 0 0.827% 0.296% ~0% 0 0 0.823% 0 0 0.994% 0 0.031% 0.597% 0.0002% 0.002%
ő 0.00008% 0 0 0 0 0 0 0 0 0 0 0 0 0 0.823% 0 0
õ 0.00005% 0 0 0 0.040% 0 0 0 0 0 0 0 0 0 0 0 0.0001%
ø 0.001% 0 0 0 0 0 0 0 0 0 0.939% 0 0 0 0 0 0.0003%
ph 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.066% 0
ř 0.0001% 0 0 0 0 0 0 0 0 0 0 0 0 1.217% 0 0 0
rh 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.398% 0
ŝ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
ş 0.0003% 0 0 0 0 0 1.780% 0 0 0 0 0 0 0 0 0 0.0003%
ś 0.0003% 0 0 0 0 0 0 0 0.683% 0 0 0 0 0 0 0 0.0002%
š 0.0008% 0 0 0 0 0 0 0 0 0 0 0 ~0% 0.805% 0 0 1.134%
ß 0.0003% 0 0.307% 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0002%
ť 0 0 0 0 0 0 0 0 0 0 0 0 0 0.043% 0 0 0
þ 0.0001% 0 0 0 0 0 0 0 0 0 0 1.455% 0 0 0 0 0
th 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.294% 0
ù 0.00008% 0.058% 0 0 0 (0.166%) 0 0 0 0 0 0 0 0 0 0.000% 0.0001%
ú 0.0008% 0 0 0.168% 0.207% 0.166% 0 0 0 0 0 0.613% 0 0.103% 0.098% ~0% 0.0005%
û 0.0001% 0.060% 0 0 0 ~0% ~0% 0 0 0 0 0 0 0 0 0.003% 0
ü 0.003% 0 0.995% 0.012% 0.026% 0 1.854% 0 0 0 0 0 0 0 0.617% 0.002% 0.001%
ű 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.117% 0 0
ů 0 0 0 0 0 0 0 0 0 0 0 0 0 0.695% 0 0 0
ų 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.2602%
ū 0.0007% 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4079%
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ~0% 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ~0% 0
ŵ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.033% 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0006% 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ~0% 0
ý 0.0001% 0 0 ~0% 0 0 0 0 0 0 0 0.228% 0 1.072% 0 ~0% 0.0001%
ŷ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ~0% 0
ÿ 0 ~0% 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0005% 0
ź 0 0 0 0 0 0 0 0 0.061% 0 0 0 0 0 0 0 0
ż 0.00009% 0 0 0 0 0 0 0 0.885% 0 0 0 0 0 0 0 0.0002%
ž 0.0003% 0 0 0 0 0 0 0 0 0 0 0 ~0% 0.995% 0 0 0.797%

*: İ および ドットなしI英語版 を参照。

下記の図はいくつかの国におけるラテン文字26文字の出現頻度を可視化したものである。各国はいずれも英語と同様に25文字程度のアルファベットを使用している[67]

エスペラント語
スペイン語
ポルトガル語
イタリア語
フランス語
英語
ドイツ語
オランダ語
スウェーデン語
ポーランド語
トルコ語

出現頻度のランキング

以下の表はいくつかの言語において出現頻度の高い10文字を並べたものである。

言語 順序 言語系統 語派
英語 etaoin shrdlu インド・ヨーロッパ語族 ゲルマン語派
フランス語[注釈 2] esait nrulo ロマンス諸語
スペイン語 eaosr nidlc
ポルトガル語 aeosr indmu
イタリア語 eaion lrtsc
ドイツ語 enisr atdhu ゲルマン語派
スウェーデン語 eantr slido
オランダ語[69] enati rodsl
ポーランド語 aoiez nscwr スラヴ語派
トルコ語 aeinr lıdkm アルタイ諸語 チュルク語族
フィンランド語 aitne sloku ウラル語族 フィン・ウゴル語派
エスペラント語 aieon lsrtk 人工言語 主にロマンス諸語、ゲルマン語派の影響を受けている。

ラテン文字以外

ロシア語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,351,370文字(210,844単語)のもので、そのうち 1,086,255文字を集計している[70]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

左側の表はアルファベット順に並べたものであり、右側の表は出現頻度の高い文字順に並べたものである。ロシア語における出現頻度の高い文字は O、E、A となる[70]

アルファベット順 出現頻度順
文字割合
А7.50%
Б2.01%
В4.33%
Г1.72%
Д3.09%
Е8.50%
Ё0.20%
Ж1.01%
З1.48%
И7.09%
Й1.21%
К3.30%
Л4.96%
М3.10%
Н6.70%
О11.07%
П2.47%
Р4.33%
С4.97%
Т5.97%
У2.22%
Ф0.21%
Х0.95%
Ц0.39%
Ч1.40%
Ш0.72%
Щ0.30%
Ъ0.02%
Ы2.36%
Ь1.84%
Э0.36%
Ю0.47%
Я1.96%
 
文字割合
О11.07%
Е8.50%
А7.50%
И7.09%
Н6.70%
Т5.97%
С4.97%
Л4.96%
В4.33%
Р4.33%
К3.30%
М3.10%
Д3.09%
П2.47%
Ы2.36%
У2.22%
Б2.01%
Я1.96%
Ь1.84%
Г1.72%
З1.48%
Ч1.40%
Й1.21%
Ж1.01%
Х0.95%
Ш0.72%
Ю0.47%
Ц0.39%
Э0.36%
Щ0.30%
Ф0.21%
Ё0.20%
Ъ0.02%

ギリシア語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,442,382文字(235,614単語)のもので、そのうち 1,161,745文字を集計している[71]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

左側の表はアルファベット順に並べたものであり、右側の表は出現頻度の高い文字順に並べたものである。ギリシア語における出現頻度の高い文字は A、O、E となる[71]

アルファベット順 出現頻度順
文字割合
Α12.98%
Β0.74%
Γ1.62%
Δ1.55%
Ε9.48%
Ζ0.31%
Η4.78%
Θ1.16%
Ι9.18%
Κ3.66%
Λ2.54%
Μ3.55%
Ν6.17%
Ξ0.42%
Ο9.48%
Π3.95%
Ρ4.12%
Σ6.67%
Τ7.89%
Υ3.96%
Φ0.72%
Χ1.26%
Ψ0.15%
Ω1.71%
 
文字割合
Α12.95%
Ο9.48%
Ε9.48%
Ι9.18%
Τ7.89%
Σ6.67%
Ν6.17%
Η4.78%
Ρ4.12%
Υ3.96%
Π3.95%
Κ3.66%
Μ3.55%
Λ2.54%
Ω1.71%
Γ1.62%
Δ1.55%
Χ1.26%
Θ1.16%
Β0.74%
Φ0.72%
Ξ0.42%
Ζ0.31%
Ψ0.15%

ヘブライ語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,230,923文字(279,679単語)のもので、そのうち 937,426文字を集計している[72]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

左側の表は文字順に並べたものであり、右側の表は出現頻度の高い文字順に並べたものである。ヘブライ語における出現頻度の高い文字は右から順に י、ה、ו となる[72]

文字 出現頻度順
文字割合
א6.11%
ב4.57%
ג1.26%
ד2.49%
ה10.48%
ו10.01%
ז1.28%
ח2.39%
ט1.19%
י10.67%
ך0.78%
כ2.60%
ל7.12%
ם2.92%
מ4.43%
ן1.06%
נ2.76%
ס1.43%
ע3.11%
ף0.26%
פ1.63%
ץ0.12%
צ1.20%
ק2.06%
ר5.40%
ש4.25%
ת4.84%
 
文字割合
י11.03%
ה10.84%
ו10.35%
ל7.36%
א6.32%
ר5.59%
ת5.00%
ב4.73%
מ4.58%
ש4.39%
ע3.22%
ם3.02%
נ2.85%
כ2.69%
ד2.58%
ח2.47%
ק2.13%
פ1.68%
ס1.48%
ז1.32%
ג1.30%
צ1.24%
ט1.23%
ן1.09%
ך0.81%
ף0.27%
ץ0.12%

ヒンディー語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 978,430文字(238,604単語)のもので、そのうち 736,216文字を集計している[73]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

左側の表は文字順に並べたものであり、右側の表は出現頻度の高い文字順に並べたものである。ヒンディー語における出現頻度の高い文字は ा、क、 े となる[73]

文字順 出現頻度順
文字割合
0.30%
3.44%
0.01%
1.01%
0.66%
0.31%
0.20%
0.78%
0.05%
0.00%
1.34%
0.03%
0.03%
0.10%
0.94%
7.14%
0.70%
1.31%
0.20%
1.16%
0.45%
1.39%
0.19%
0.01%
0.57%
0.17%
0.75%
0.09%
0.13%
2.89%
1.15%
1.68%
0.36%
3.48%
2.66%
0.35%
1.78%
0.67%
3.28%
2.20%
5.91%
2.45%
1.62%
0.76%
0.27%
3.78%
4.82%
0.67%
8.22%
ि3.20%
3.47%
1.45%
0.81%
0.10%
0.00%
6.85%
1.96%
0.10%
2.21%
0.15%
3.02%
 
文字割合
8.22%
7.14%
6.85%
5.91%
4.82%
3.78%
3.48%
3.47%
3.44%
3.28%
ि3.20%
3.02%
2.89%
2.66%
2.45%
2.21%
2.20%
1.96%
1.78%
1.68%
1.62%
1.45%
1.39%
1.34%
1.31%
1.16%
1.15%
1.01%
0.94%
0.81%
0.78%
0.76%
0.75%
0.70%
0.67%
0.67%
0.66%
0.57%
0.45%
0.36%
0.35%
0.31%
0.30%
0.27%
0.20%
0.20%
0.19%
0.17%
0.15%
0.13%
0.10%
0.10%
0.10%
0.09%
0.05%
0.03%
0.03%
0.01%
0.01%
0.00%
0.00%

中国語

中国語における文字の出現頻度の上位20文字は以下の表の通りである[74]。分析では2009年にインターネット上で人気のあった8つの小説から計12,379,116文字について調査したものである[75]

文字 中国語における相対出現頻度
3.47% 3.47
 
2.05% 2.05
 
1.99% 1.99
 
1.67% 1.67
 
1.51% 1.51
 
1.23% 1.23
 
1.16% 1.16
 
1.04% 1.04
 
1.00% 1
 
0.93% 0.93
 
0.92% 0.92
 
0.90% 0.9
 
0.90% 0.9
 
0.87% 0.87
 
0.72% 0.72
 
0.69% 0.69
 
0.69% 0.69
 
0.66% 0.66
 
0.64% 0.64
 
0.59% 0.59
 

中国の古文書における文字の出現頻度上位10文字は以下の表の通りである[74]。「不」、「一」、「人」の三文字は各年代において出現頻度が上位10位以内の高い頻度で表れる文字であった[74]

年代 順序 詳細
7-10世紀 不人山无风 一日云有何 全唐詩』に記載されている総数2,602,310文字に対する分析[75]
10-13世紀 人风花一不 春无云月天 『全宋詞』に記載されている総数1,417,778文字に対する分析[75]
13-14世紀 云我不你的 是人一来了 『元詩選』に記載されている総数2,172,631文字に対する分析[75]
14-20世紀 了不一道来 人的是我个 西遊記』、『水滸伝』、『三国志演義』、『紅楼夢』に記載されている総数2,506,684文字に対する分析[75]

また、中国語の拼音(ピンイン)入力におけるアルファベットの出現頻度は以下の表の通りである[76]。分析には小説から約50万字、新聞記事から約130万字、ネットの投稿から約120万字を抽出したデータを使用している[77]。i、a、nの三つの文字の出現頻度が高く、vが最も出現頻度の低い文字であった[77]

文字 中国語の拼音入力における相対出現頻度
A 10.52% 10.52
 
B 1.42% 1.42
 
C 1.40% 1.4
 
D 3.28% 3.28
 
E 6.97% 6.97
 
F 0.89% 0.89
 
G 6.90% 6.9
 
H 7.17% 7.17
 
I 13.96% 13.96
 
J 2.42% 2.42
 
K 0.65% 0.65
 
L 1.79% 1.79
 
M 1.06% 1.06
 
N 11.91% 11.91
 
O 5.88% 5.88
 
P 0.42% 0.42
 
Q 1.03% 1.03
 
R 0.92% 0.92
 
S 2.97% 2.97
 
T 1.16% 1.16
 
U 7.94% 7.94
 
V 0.10% 0.1
 
W 1.16% 1.16
 
X 1.92% 1.92
 
Y 2.92% 2.92
 
Z 3.26% 3.26
 

韓国語

韓国語ハングルにおける字母の出現頻度は以下の通りとなる[78]

順位 字母 位置 度数 割合
5 初声 1,171,038 5.372% 5.372
 
20 終声 411,538 1.888% 1.888
 
36 初声 64,997 0.298% 0.298
 
56 終声 6,068 0.028% 0.028
 
63 終声 357 0.002% 0.002
 
16 初声 596,893 2.738% 2.738
 
4 終声 1,328,090 6.092% 6.092
 
60 終声 2,790 0.013% 0.013
 
43 終声 30,376 0.139% 0.139
 
9 初声 800,785 3.673% 3.673
 
49 終声 18,535 0.085% 0.085
 
35 初声 72,604 0.333% 0.333
 
15 初声 610,211 2.799% 2.799
 
10 終声 776,891 3.564% 3.564
 
55 終声 7,330 0.034% 0.034
 
57 終声 4,344 0.020% 0.02
 
61 終声 2,183 0.010% 0.01
 
67 終声 5 0.000%
65 終声 131 0.001% 0.001
 
66 終声 78 0.000%
59 終声 3,023 0.014% 0.014
 
18 初声 429,661 1.971% 1.971
 
24 終声 258,542 1.186% 1.186
 
23 初声 359,029 1.647% 1.647
 
29 終声 133,729 0.613% 0.613
 
52 初声 16,037 0.074% 0.074
 
46 終声 25,868 0.119% 0.119
 
11 初声 756,477 3.470% 3.47
 
30 終声 114,592 0.526% 0.526
 
44 初声 29,184 0.134% 0.134
 
25 終声 219,186 1.005% 1.005
 
1 初声 2,105,587 9.659% 9.659
 
14 終声 617,205 2.831% 2.831
 
12 初声 748,509 3.434% 3.434
 
50 終声 17,173 0.079% 0.079
 
48 初声 20,434 0.094% 0.094
 
26 初声 200,266 0.919% 0.919
 
54 終声 9,944 0.046% 0.046
 
39 初声 48,097 0.221% 0.221
 
64 終声 302 0.001% 0.001
 
31 初声 106,679 0.489% 0.489
 
47 終声 25,341 0.116% 0.116
 
33 初声 98,986 0.454% 0.454
 
51 終声 16,938 0.078% 0.078
 
13 初声 635,299 2.914% 2.914
 
45 終声 26,948 0.124% 0.124
 
2 中声 1,926,007 8.835% 8.835
 
21 中声 409,768 1.880% 1.88
 
37 中声 63,728 0.292% 0.292
 
58 中声 3,769 0.017% 0.017
 
7 中声 942,819 4.325% 4.325
 
22 中声 393,695 1.806% 1.806
 
19 中声 422,490 1.938% 1.938
 
42 中声 44,394 0.204% 0.204
 
8 中声 862,073 3.955% 3.955
 
28 中声 162,656 0.746% 0.746
 
53 中声 11,215 0.051% 0.051
 
32 中声 99,794 0.458% 0.458
 
34 中声 94,576 0.434% 0.434
 
17 中声 592,419 2.718% 2.718
 
38 中声 57,373 0.263% 0.263
 
62 中声 2,035 0.009% 0.009
 
40 中声 47,506 0.218% 0.218
 
41 中声 47,135 0.216% 0.216
 
6 中声 1,151,976 5.285% 5.285
 
27 中声 179,818 0.825% 0.825
 
3 中声 1,355,527 6.218% 6.218
 

韓国語のハングルにおける文字(音節)の出現頻度上位100文字は以下の通りである[79]

順位 文字 度数 割合
1 314,869 3.550% 3.55
 
2 265,071 2.988% 2.988
 
3 232,384 2.620% 2.62
 
4 172,126 1.940% 1.94
 
5 171,943 1.938% 1.938
 
6 162,579 1.833% 1.833
 
7 152,862 1.723% 1.723
 
8 150,918 1.701% 1.701
 
9 144,051 1.624% 1.624
 
10 133,691 1.507% 1.507
 
11 113,920 1.284% 1.284
 
12 113,150 1.276% 1.276
 
13 108,164 1.219% 1.219
 
14 106,129 1.196% 1.196
 
15 103,121 1.162% 1.162
 
16 102,709 1.158% 1.158
 
17 99,943 1.127% 1.127
 
18 88,314 0.996% 0.996
 
19 86,764 0.978% 0.978
 
20 84,774 0.956% 0.956
 
21 84,247 0.950% 0.95
 
22 80,043 0.902% 0.902
 
23 78,532 0.885% 0.885
 
24 77,858 0.878% 0.878
 
25 75,346 0.849% 0.849
 
26 69,423 0.783% 0.783
 
27 67,855 0.765% 0.765
 
28 66,390 0.748% 0.748
 
29 64,261 0.724% 0.724
 
30 62,338 0.703% 0.703
 
31 60,136 0.678% 0.678
 
32 58,485 0.659% 0.659
 
33 58,386 0.658% 0.658
 
34 58,165 0.656% 0.656
 
35 57,152 0.644% 0.644
 
36 56,945 0.642% 0.642
 
37 54,407 0.613% 0.613
 
38 49,019 0.553% 0.553
 
39 45,932 0.518% 0.518
 
40 45,475 0.513% 0.513
 
41 44,672 0.504% 0.504
 
42 43,880 0.495% 0.495
 
43 43,879 0.495% 0.495
 
44 43,685 0.492% 0.492
 
45 43,631 0.492% 0.492
 
46 42,568 0.480% 0.48
 
47 40,355 0.455% 0.455
 
48 39,553 0.446% 0.446
 
49 39,529 0.446% 0.446
 
50 39,345 0.444% 0.444
 
51 37,885 0.427% 0.427
 
52 37,391 0.422% 0.422
 
53 36,967 0.417% 0.417
 
54 34,109 0.385% 0.385
 
55 33,964 0.383% 0.383
 
56 33,145 0.374% 0.374
 
57 31,692 0.357% 0.357
 
58 31,282 0.353% 0.353
 
59 31,041 0.350% 0.35
 
60 30,364 0.342% 0.342
 
61 30,317 0.342% 0.342
 
62 30,184 0.340% 0.34
 
63 30,051 0.339% 0.339
 
64 29,241 0.330% 0.33
 
65 29,105 0.328% 0.328
 
66 29,068 0.328% 0.328
 
67 28,918 0.326% 0.326
 
68 28,660 0.323% 0.323
 
69 28,176 0.318% 0.318
 
70 27,582 0.311% 0.311
 
71 26,804 0.302% 0.302
 
72 26,341 0.297% 0.297
 
73 26,009 0.293% 0.293
 
74 25,964 0.293% 0.293
 
75 25,932 0.292% 0.292
 
76 25,618 0.289% 0.289
 
77 25,168 0.284% 0.284
 
78 25,055 0.282% 0.282
 
79 24,975 0.282% 0.282
 
80 24,764 0.279% 0.279
 
81 24,512 0.276% 0.276
 
82 24,266 0.274% 0.274
 
83 23,706 0.267% 0.267
 
84 23,653 0.267% 0.267
 
85 23,152 0.261% 0.261
 
86 23,016 0.259% 0.259
 
87 22,916 0.258% 0.258
 
88 22,764 0.257% 0.257
 
89 22,618 0.255% 0.255
 
90 22,373 0.252% 0.252
 
91 22,040 0.248% 0.248
 
92 22,033 0.248% 0.248
 
93 21,990 0.248% 0.248
 
94 21,976 0.248% 0.248
 
95 21,973 0.248% 0.248
 
96 21,939 0.247% 0.247
 
97 21,910 0.247% 0.247
 
98 21,719 0.245% 0.245
 
99 21,307 0.240% 0.24
 
100 21,280 0.240% 0.24
 

また、1950年代に調査された韓国の文書中におけるハングルの出現頻度の高い30文字は 이는다하 에가고올지어 의은서그아 로라기도한 나니를것있 리으여사들 の順である[80]。また、1950年代に調査された韓国語の文書中における漢字の出現頻度の高い30文字は 國生地人自 十一分物年 學大字發身 民氣方間會 日事對行上 當實等二法 である[81]

ベンガル語

ベンガル語で使用されるベンガル文字における文字の出現頻度は以下の表の通りである[82]

文字 ベンガル語における相対出現頻度
12.966% 12.966
 
7.812% 7.812
 
6.627% 6.627
 
ি 5.221% 5.221
 
5.503% 5.503
 
4.356% 4.356
 
4.341% 4.341
 
3.814% 3.814
 
3.189% 3.189
 
3.094% 3.094
 
2.908% 2.908
 
2.652% 2.652
 
2.393% 2.393
 
2.381% 2.381
 
2.363% 2.363
 
য় 1.895% 1.895
 
1.259% 1.259
 
1.191% 1.191
 
1.176% 1.176
 
1.025% 1.025
 
0.907% 0.907
 
0.855% 0.855
 
0.813% 0.813
 
0.804% 0.804
 
0.684% 0.684
 
0.648% 0.648
 
0.603% 0.603
 
0.567% 0.567
 
0.547% 0.547
 
0.524% 0.524
 
0.442% 0.442
 
0.432% 0.432
 
0.426% 0.426
 
0.405% 0.405
 
0.364% 0.364
 
0.280% 0.28
 
0.258% 0.258
 
ড় 0.202% 0.202
 
0.142% 0.142
 
0.140% 0.14
 
0.128% 0.128
 
0.109% 0.109
 
0.086% 0.086
 
0.084% 0.084
 
0.047% 0.047
 
0.040% 0.04
 
0.032% 0.032
 
ঢ় 0.013% 0.013
 
0.006% 0.006
 
0.003% 0.003
 

またベンガル語の辞書の見出し語における文字の出現頻度は া ্র িন তকবপ ু মসলদ ে োঅগযচ জশ ীটহ য়ষধভণ ড়আ ঁখউ ৃফ ংূঙ ছইডথঘ ঞঠ ৈ ৌঝ ওএ ঃঢঢ় ঈঐঔঋঊৎ の順である[83]

タイ語

タイ語タイ文字における文字の出現頻度は以下の表の通りとなる[84]。分析に使用したデータにおける文字の総数は 354,221,260文字である[84]

順位 文字 度数 割合
1 25,209,774 7.12% 7.12
 
2 22,980,559 6.49% 6.49
 
3 21,539,571 6.08% 6.08
 
4 15,639,107 4.42% 4.42
 
5 15,567,843 4.39% 4.39
 
6 14,043,669 3.96% 3.96
 
7 13,502,777 3.81% 3.81
 
8 13,446,596 3.80% 3.8
 
9 12,088,661 3.41% 3.41
 
10 11,622,044 3.28% 3.28
 
11 11,480,076 3.24% 3.24
 
12 11,414,497 3.22% 3.22
 
13 9,370,549 2.65% 2.65
 
14 9,345,532 2.64% 2.64
 
15 8,848,508 2.50% 2.5
 
16 8,219,261 2.32% 2.32
 
17 8,098,263 2.29% 2.29
 
18 7,284,384 2.06% 2.06
 
19 7,048,841 1.99% 1.99
 
20 6,658,952 1.88% 1.88
 
21 6,652,219 1.88% 1.88
 
22 6,467,847 1.83% 1.83
 
23 6,424,503 1.81% 1.81
 
24 6,148,224 1.74% 1.74
 
25 6,002,429 1.69% 1.69
 
26 5,808,506 1.64% 1.64
 
27 4,568,250 1.29% 1.29
 
28 4,255,053 1.20% 1.2
 
29 4,029,354 1.14% 1.14
 
30 4,028,758 1.14% 1.14
 
31 3,834,242 1.08% 1.08
 
32 3,773,356 1.07% 1.07
 
33 3,656,069 1.03% 1.03
 
34 3,655,755 1.03% 1.03
 
35 2,919,201 0.82% 0.82
 
36 2,724,773 0.77% 0.77
 
37 2,690,261 0.76% 0.76
 
38 2,562,973 0.72% 0.72
 
39 1,951,275 0.55% 0.55
 
40 1,816,470 0.51% 0.51
 
41 1,772,343 0.50% 0.5
 
42 1,732,132 0.49% 0.49
 
43 1,529,376 0.43% 0.43
 
44 1,404,048 0.40% 0.4
 
45 1,365,793 0.39% 0.39
 
46 1,181,412 0.33% 0.33
 
47 1,154,037 0.33% 0.33
 
48 1,133,041 0.32% 0.32
 
49 975,323 0.28% 0.28
 
50 745,057 0.21% 0.21
 
51 499,872 0.14% 0.14
 
52 485,706 0.14% 0.14
 
53 339,092 0.10% 0.1
 
54 234,963 0.07% 0.07
 
55 215,652 0.06% 0.06
 
56 196,316 0.06% 0.06
 
57 147,910 0.04% 0.04
 
58 142,585 0.04% 0.04
 
59 139,272 0.04% 0.04
 
60 138,806 0.04% 0.04
 
61 138,759 0.04% 0.04
 
62 131,819 0.04% 0.04
 
63 119,534 0.03% 0.03
 
64 113,603 0.03% 0.03
 
65 106,731 0.03% 0.03
 
66 105,505 0.03% 0.03
 
67 96,032 0.03% 0.03
 
68 80,281 0.02% 0.02
 
69 66,704 0.02% 0.02
 
70 65,882 0.02% 0.02
 
71 55,074 0.02% 0.02
 
72 42,917 0.01% 0.01
 
73 40,740 0.01% 0.01
 
74 35,667 0.01% 0.01
 
75 33,296 0.01% 0.01
 
76 29,240 0.01% 0.01
 
77 27,089 0.01% 0.01
 
78 13,107 0.00%
79 4,657 0.00%
80 2,628 0.00%
81 172 0.00%
82 ฿ 42 0.00%
83 33 0.00%
84 19 0.00%
85 5 0.00%
86 4 0.00%
87 2 0.00%

タイ文字の子音における文字の出現頻度は高い順に รนกองมยวทดลตหสบคปจพขชธผศถณซษญภฐฟฉฒฝฎฏฤฮฑฃฬฆฌฅฦ である[84]。またタイ文字の母音、記号、数字における文字の出現頻度は高い順に า ่เ ้ ั ี ิะแไใ ุ ื ์ ู ็ ำโ ึๆฯ ๊๒๑๐๕๓๔๖ ๋๗๘ ํ ฺ฿ๅ๚๏๛ ๎ である[84]

アラビア語

アラビア語アラビア文字における文字の出現頻度は以下の表の通りとなる[85]。分析に使用したデータにおける語の総数は 1,297,259語、文字の総数は 5,122,132文字である[85]

文字 アラビア語における相対出現頻度
ء 0.31% 0.31
 
ؤ 0.09% 0.09
 
ئ 0.28% 0.28
 
ا 12.50% 12.5
 
آ 0.15% 0.15
 
أ 2.89% 2.89
 
إ 1.00% 1
 
ب 4.67% 4.67
 
ة 1.42% 1.42
 
ت 2.61% 2.61
 
ث 0.87% 0.87
 
ج 1.23% 1.23
 
ح 1.86% 1.86
 
خ 0.79% 0.79
 
د 2.67% 2.67
 
ذ 0.96% 0.96
 
ر 4.20% 4.2
 
ز 0.52% 0.52
 
س 2.47% 2.47
 
ش 0.73% 0.73
 
ص 1.04% 1.04
 
ض 0.44% 0.44
 
ط 0.50% 0.5
 
ظ 0.18% 0.18
 
ع 4.01% 4.01
 
غ 0.33% 0.33
 
ف 2.84% 2.84
 
ق 2.69% 2.69
 
ك 2.04% 2.04
 
ل 12.07% 12.07
 
م 6.52% 6.52
 
ن 6.61% 6.61
 
ه 5.08% 5.08
 
و 5.80% 5.8
 
ى 1.29% 1.29
 
ي 6.36% 6.36
 

関連の出現頻度

単語の出現頻度

ジップの法則

続いて文字の出現頻度ではなく、単語の出現頻度について言及する。ある自然言語のコーパスにおける単語の出現頻度はジップの法則に従った分布となる[86][87]。これは出現頻度の最も高い単語は二番目の単語の約二倍の出現頻度となることをいう[87]

エスペラント語で書かれたあるフィクション小説のコーパスにおける単語の出現頻度は以下の通りとなった:

la 9864、kaj 4195、mi 3934、de 2819、li 2543、esti 2395、al 1969... と続いている[88]

ジップの法則は集合の要素(文書内における単語など)を出現頻度の高い順に並べ、それぞれに順位を対応させると、各順位の出現確率

スーパーマーケットに並んでいる商品。日本においては価格の末尾の数字は 8 であることが多いとされる[94]

低価格帯

アルファベット平仮名に限らず、数字においても特徴的な出現頻度の事例が知られている。例として、日本のスーパーマーケットにおける商品の金額の末尾(一の位)の数字は 8 であることが多いことが知られている[95]。一方、アメリカやヨーロッパ、英語圏などのスーパーマーケットで見かける金額の末尾(一の位)の数字は 9 であることが多いことが知られている[96]。具体例として、商品の価格が200円でなく199円として売られていることが挙げられる。1997年の『Marketing Bulletin』によると、ニュージーランドの新聞の広告に記載された商品価格における末尾の桁の 60% が 9 であったことが知られている[97]

これらの事象を確認することは、大規模な統計的調査や統計学者による分析を行う必要なく容易に確かめることができる。

ベンフォードの法則

一方で潜在的な例として、企業の財務会計における数字の最初の桁に関する頻度について挙げることができる[98]。すなわち、最初の桁に現れる数字の出現頻度は互いに等しくなく、偏りがあることが知られており、これはベンフォードの法則と名づけられている。このベンフォードの法則によれば、数字の最初の桁において 1 である確率は 30% 程度であるが、9 である確率は 5% 未満である。このことから数字の最初の桁における分布をより正確に求めることで、不自然な偏りを検出し、不正や詐欺を発見するのに役立たせることができる[98]

数字の最初の桁における各数字の出現頻度を定量的に表すと、以下の表の通りとなる[99]。ただし、最初の桁の数値を とし、 の出現確率を とする。

の度数
1 30.1% 30.1
 
2 17.6% 17.6
 
3 12.5% 12.5
 
4 9.7% 9.7
 
5 7.9% 7.9
 
6 6.7% 6.7
 
7 5.8% 5.8
 
8 5.1% 5.1
 
9 4.6% 4.6
 

ベンフォードの法則では、対象となるデータセットが大規模なものでかつ一つ一つのデータが複数の桁を持ち、可能な限り実在するデータに対して現れる法則となる[100]

10進数の数字における最初の桁の出現確率は を底とする対数を用いて表される。すなわち、最初の桁の数値 の出現確率は以下の式で与えられる[48]:

これはすなわち、数字を横軸にとり、出現確率を縦軸とすると、各数字の出現確率は対数によって描かれる分布となる。したがって、数字の最初の桁における出現確率は特有の分布に従う[101]

大規模なデータセットに対する数字の二桁目の出現頻度についても同様に偏りのある分布となる[100]。しかしながら、数字の右側の桁の出現頻度を求めようとすると、次第にベンフォードの法則には従わなくなり、各数字の出現確率が均等(各数字約10%の出現確率)に近づいていくことが知られている[102]

なお、スーパーマーケットにおける末尾の数字は 8(9)であることが多いため、この性質は当てはまらない。

単語の長さ

各言語における単語の長さの平均値は Wordlengths - ウェイバックマシン(2007年10月2日アーカイブ分) にまとめられている。

このサイトの執筆者および分析を行ったコーパスの詳細についてはほとんど不明で、Unicode のテストを行うための文書について分析を行ったことのみが判明している[注釈 5]

単語の長さを算出する方法は主に三種類存在する[103]。一つ目は語の形態に応じて語の長さを算出する方法である。これはある単語に対してその本体の自立部分と、助詞、助動詞などの付属部分を別々のものとみなして計算する方法である[104]。二つ目は語の表記に応じた語の長さを算出する方法である。これはある単語に対して文字として表記されているそのままの文字数を一つの単語として計算する方法である[105]。三つめは語の音に応じた語の長さを算出する方法である。これはある単語に対してそれぞれの文字を拍(モーラ)に応じて語の長さを計算する方法である[105]

1986年に出版された『中央公論』1年分のデータを標本とした日本語における単語の長さの平均は、形態別の算出方法では 1.8723 となり、表記別の算出方法では 3.6704 であり、音別の算出方法では 4.7798 であった[104]

実装

AWKによる頻度分析プログラム

説明

以下に記載されているコードはエスペラント語における頻度分析を行うプログラムで AWK によって書かれている。出力形式として ASCIIHTMLWikitable およびヒストグラムを対応している[注釈 3]。頻度分析が可能な項目として以下のものが挙げられる:

  • (単なる)文字の出現頻度
  • 単語の頭文字の出現頻度
  • 単語の末尾の文字の出現頻度
  • 単語の長さの平均値とその分布
  • 単語の出現頻度

BEGINパターンでは分析する頻度の機能を自由に有効・無効化することができ、出力形式のフォーマットを指定することもできる。通常下記のプログラムの頻度分析は大規模なテキストコーパスの分析についても数十秒の実行時間で終了することが多い。しかし、計算機の処理速度やテキストコーパスの規模によっては単語の出現頻度を求めるのに数十分かかる場合がある。したがって、始めて分析するコーパスの実行においては単語の出現頻度分析を無効にして実行すること推奨する。

単語の出現頻度算出機能の一つとして単語を品詞ごとに分けて名詞(-O)、形容詞(-A)、副詞(-E)、(分詞を含まない)動詞、およびその他の品詞ごとに分類することができる。

言い換えれば、複数形と対格形については基本的に -O、-A、-E の形として導かれる。すなわち、"vin" や "tiujn" のような単語はそれぞれ "vi" や "tiu" となる。また動詞の語尾 "-as"、"-is"、"-os"、"-us"、"-u" は "-i" として導かれる。動詞の分詞についても -O、-A、-E の単語になり、例えば "amantojn" は "amanto" となり "ami" にはならない。

BEGINパターンに含まれている例外の単語処理(正規表現の部分)に注意を払う必要がある。これらの処理によって頻度分析において "nun" を "nu" の対格形としてではなく、"kaj" は "ka" の複数形ではなく、"unu" が "uni" の命令形ではないことを正しく判別する。もっともすべての単語を正しく処理できるわけではない。例として、エスペラント由来でない名前の "Simon" では "simo" と誤って変形されてしまう。これを回避するために必要に応じて該当のリストを拡張することが可能である。

プログラムの使用方法として、下記の折り畳みボックス内のコードをコピーし、テキストファイルに貼り付け保存(frequency.awk)。これをターミナルにて以下のコマンドを実行する:

awk -f frequency.awk text.cx >result.cx

もしくは各環境に対応したコマンドを実行する。なお、このプログラムを実行するためには実行環境内に AWK をインストールしておく必要がある。Linux、Unix 環境ではデフォルトでは AWK が搭載されており、Mac も同様に動作すると考えられる。Windows については Gnu-a website からプログラムファイルをダウンロードすることでプログラムを実行することができる。

このプログラムを実行することによって任意のコーパスに対して単語の頭文字および末尾の文字の出現頻度、単文字の出現頻度、単語の長さの平均値と分布、あるいは単語の出現頻度の頻度分析が可能となる。

プログラム

AWK

BEGIN {
# 以下のコードは適宜修正してください

# 分析に関する設定項目 - 1: 有効化、0: 無効化

LETTER_FREQUENCY  = 1
FIRST_LETTERS_OF_WORD = 1
LAST_LETTERS_OF_WORD = 1
WORD_LENGTH  = 1
WORD_FREQUENCY  = 1 # 実行に時間がかかる

# 出力形式に関する設定項目 - 1: 有効化、0: 無効化

FORMAT_ASCII = 1
FORMAT_HTML = 1
FORMAT_WIKI = 1

# 例外の単語

NO_VERB = "^(tiu|kiu|neniu|unu|c[x]u|c[x]iu)$"
NO_ALL_WORD = "^(kaj|tuj|nun|kun|sen|ajn|plej|malplej|tamen|amen|kvin)$"
NO_ROMAN = "^(mil|((c|ci|cim|ĉ|div|divid|il|l|lic|lim|m|v|vic|vid|viv)i))$"

# lili、livi、vili もローマ数字の例外のとして挙げられるが、ほとんど場合で考慮する必要はない

start_time=systime(); # systime() 関数が使用できない環境下では除去する必要がある。

# ==================================================================================
version="Version: 2012-01-18 17:00 Pejno Simono";

FS="[ \n\t\",.;:!?()]"; # 考慮する
}

{
gsub(/[-]/,"");
for(i=1; i<=NF; i++)
if($i~/^[a-zA-Z][a-zA-Z]+$/) # 少なくとも2文字以上
{
s=tolower($i);
if(s!~/^[ivxlcdm]+$/ || s~NO_ROMAN) # ローマ数字以外
{
n=0;
for(j=1; j<=length(s); ) # 任意の文字
{
c=substr(s,j,1);
if (c~/^[cghjsu]/)
if (substr(s,j+1,1)=="x" && substr(s,j+2,1)!="x")
c=substr(s,j,2);
if(j==1)
first[c]++; # 単語の頭文字
letter[c]++;
letters++;
j+=length(c); # 単語中の "x" まで飛ばす(X-方式)
n++;
}
last[c]++; # 単語の末尾の文字

if(n>1) # 単語の長さが 1 より大きい場合のみ
{
length[n]++; # 単語の長さ
sum+=n;
words++;

if(WORD_FREQUENCY==1)
{
s=tolower($i); # すべての単語に対して
j=length(s);
if(j>2)
{
if(s!~NO_VERB)
n=sub(/(as|is|os|us|u)$/,"i",s);
if(n==0 && s!~NO_ALL_WORD)
sub(/(jn|j|n)$/,"",s);
}
word[s]++;
}

}
}
}
}

END {
FIRST=1;
LAST=2;
ALL=3;
LENGTH=4;
WORDS=5;

ASCII=1;
HTML=2;
WIKI=3

asciiwidth=50;
htmlwidth=400; # pixel
wikiwidth=400; # pixel

if(LETTER_FREQUENCY>0)
{
if (FORMAT_ASCII>0) printout(ALL,ASCII);
if (FORMAT_HTML>0) printout(ALL,HTML);
if (FORMAT_WIKI>0) printout(ALL,WIKI);
}
if(FIRST_LETTERS_OF_WORD>0)
{
if (FORMAT_ASCII>0) printout(FIRST,ASCII);
if (FORMAT_HTML>0) printout(FIRST,HTML);
if (FORMAT_WIKI>0) printout(FIRST,WIKI);
}
if(LAST_LETTERS_OF_WORD>0)
{
if (FORMAT_ASCII>0) printout(LAST,ASCII);
if (FORMAT_HTML>0) printout(LAST,HTML);
if (FORMAT_WIKI>0) printout(LAST,WIKI);
}
if(WORD_LENGTH>0)
{
if (FORMAT_ASCII>0) printout(LENGTH,ASCII);
if (FORMAT_HTML>0) printout(LENGTH,HTML);
if (FORMAT_WIKI>0) printout(LENGTH,WIKI);
}
if(WORD_FREQUENCY>0)
{
if(FORMAT_ASCII>0) printout(WORDS,ASCII);
if(FORMAT_HTML>0) printout(WORDS,HTML);
if(FORMAT_WIKI>0) printout(WORDS,WIKI);
}

if(start_time>0) print time_needed();
print version;
}

function printout(mode,format)
{
if(mode==FIRST)
return printout2(mode,format,first);
if(mode==LAST)
return printout2(mode,format,last);
if(mode==ALL)
return printout2(mode,format,letter);
if(mode==LENGTH)
return printout2(mode,format,length);
if(mode==WORDS)
return printout2(mode,format,word);
}

function printout2(mode,format,A)
{
setup(mode);
if(format==ASCII)
return printoutASCII(mode,A);
if(format==HTML)
return printoutHTML(mode,A);
if(format=WIKI)
return printoutWIKI(mode,A);
}

function setup(mode)
{
_col=2;
_asc=0;
_colhdr="letter";
_colalign="center";
_counted="words";
_count=words;
_mez=", average word length";
_mez2="letters";

if(words>0)
_av=sum/words; # 単語の長さの平均値
if(mode==FIRST)
{
_title="First letters of a word";
return;
}
if(mode==LAST)
{
_title="Last letters of a word";
return;
}
if(mode==ALL)
{
_title="All letter";
_counted="letters";
_count=letters;
return;
}
if(mode==LENGTH)
{
_title="Word length";
_col=1;
_asc=1;
_colhdr="length";
return;
}
if(mode==WORDS)
{
_title="Word frequencies";
_colhdr="word";
_colalign="left";
}
}

function printoutASCII(mode,A, i,j,B,w,s,fmt)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=asciiwidth/j;
print "<" "pre>";
printf("=== %s ===\n\n",_title);
if(mode==WORDS)
fmt="%-20s\t%8s %s\n";
else
fmt="%-6s\t%8s %s\n";
printf(fmt,_colhdr,"number","probability\n")
if(mode==WORDS)
fmt="%-20s\t%s %6.2f%% %s\n";
else
fmt="%-6s\t%s %6.2f%% %s\n";
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf(fmt, s, thou(B[j,2],8), 100.0*B[j,2]/_count, hist(B[j,2]*w));
}
printf("\nEl %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf "\n</" "pre>\n\n";
}

function hist(w, s)
{
w-=0.5;
while(w-- > 0)
s=s "*";
return s;
}

function printoutHTML(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=htmlwidth/j;
printf("<table border=1>\n");
printf("<tr><th colspan=4>%s</th></tr>\n",_title);
printf("<tr><td align=%s>%s</td><td align=right>number</td>", _colalign, _colhdr);
printf("<td align=center colspan=2>probability</td>\n");
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf("<tr><td align=%s><b>%s</b></td>", _colalign, s);
printf("<td align=right>%s</td>", thou(B[j,2]),0);
printf("<td align=right>%0.2f%%</td>", 100.0*B[j,2]/_count);
printf("<td align=left><div style=\"width:%dpx;",B[j,2]*w);
printf("height:2ex;background:blue;\">&#160;</div></td>\n");
}
printf("<tr><th colspan=4>El %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("</th></tr>\n");
printf("</table>\n\n");
}

function printoutWIKI(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=100.0*j/_count;
w=wikiwidth/w;
printf("{| class=\"wikitable\"\n");
printf("! align=center colspan=4 | %s\n",_title);
printf("|-\n! align=%s | %s !! align=right | number !! align=right colspan=2 | probability\n",_colalign,_colhdr);
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf("|-\n| align=%s | <b>%s</b> ",_colalign,s);
printf("|| align=right | %s ", thou(B[j,2],0));
printf("|| align=right | {{bartable|%0.2f|%%|%0.3f}}\n", 100.0*B[j,2]/_count, w);
}
printf("|-\n! colspan=4 | El %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("\n");
printf("|}\n\n");
}

function getmax(A, i,j,M)
{
for(i in A)
{
split(i, M, SUBSEP);
if(M[2]==2)
if(A[i]>j)
j=A[i];
}
return j;
}

function sillysort(A,B,col,asc, i,j,n,t)
{
for(j in A)
{
i++;
B[i,1]=j;
B[i,2]=A[j];
n=i;
if (asc==0) # desc
{
while(n>1 && B[n,col]+0>B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
else # asc
{
while(n>1 && B[n,col]+0<B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
}
return i;
}

function time_needed( h,m,s,eps)
{
eps=0.000001;
s=systime()-start_time;
m=int(s/60);
s-=m*60-eps;
h=int(m/60);
m-=h*60-eps;
return sprintf("Run time (hms): %i:%02i:%02i\n",h,m,s);
}

function thou(v,n, s)
{
s=sprintf("%d_",v);
while(s~/[0-9][0-9][0-9][0-9]/) # エレガント
sub(/[0-9][0-9][0-9][,_]/, ",&",s); # 興味深い
sub(/_/,"",s); # エレガントでない
while(length(s)<n)
s=" " s;
return s;
}

function _thou(v,n, i,j,s,t)
{
s=sprintf("%d",v);
for(i=length(s); i>0; i--)
{
t=substr(s,i,1) t;
if(++j%3==0)
t="," t;
}
while(length(t)<n)
t=" " t;
return t;
}

脚注

注釈

  1. ^ 米国のモールス符号は1840年代にアルフレッド・ヴェイルによって英文字の出現頻度に基づいて発明した符号であり、出現頻度の高い文字ほど短い符号が割り当てられている[16]。現代において使用されている国際モールス符号では文字の出現頻度を考慮した通信効率性が若干失われている。
  2. ^ 発音のしやすさから、一部の地域では伝統的に "esartinulop" が使用されている[68]
  3. ^ a b このエスペラント語の単語の出現頻度に関する結果はサイモン・エドワード・アドリアン・ペインエスペラント語版が2012年に AWK を用いて行った分析に基づく。
  4. ^ : Григорьевич Рублёв
  5. ^ LinkedIn Patrick Hall[リンク切れ] — このサイトの執筆者は言語学者であり、Unicode に詳しい Patrick Hall とされる。

出典

  1. ^ a b Al-Kindi Writes the First Treatise on Cryptanalysis” (英語). 2024年3月31日時点のオリジナルよりアーカイブ。2025年3月31日閲覧。
  2. ^ a b Fred Williams (1992年). “Origin of the California Job Case” (英語). 2021年4月16日時点のオリジナルよりアーカイブ。2025年5月6日閲覧。
  3. ^ 計量国語学会 2009, p. 45.
  4. ^ Guinness, Harry. “The Best Starting Words to Win at Wordle” (英語). Wired. ISSN 1059-1028. オリジナルの2025-02-23時点におけるアーカイブ。. https://web.archive.org/web/20250223060329/https://www.wired.com/story/best-wordle-tips/ 2022年2月12日閲覧。. 
  5. ^ Samantha Graves (2024年11月25日). “Which 'Wheel of Fortune' Bonus Round Letter Picks Are Best?” (英語). collider. オリジナルの2025年3月28日時点におけるアーカイブ。. https://web.archive.org/web/20250328135731/https://collider.com/wheel-of-fortune-bonus-round-best-letter-picks/ 2025年3月28日閲覧。 
  6. ^ 藤原融「暗号について」『大阪大学大型計算機センターニュース』第67巻、大阪大学、1987年、43-49頁、hdl:11094/65759ISSN 0910-0164NCID AN00029994OCLC 852213694オリジナルの2024年9月7日時点におけるアーカイブ。 
  7. ^ Zim, Herbert Spencer (1961) (英語). Codes & Secret Writing: Authorized Abridgement. Scholastic Book Services. OCLC 317853773 
  8. ^ Prashant Kumar (2017). “Optimization of Key Frequency in Keyboard Using Mathematical inclusion of Design” (英語). International Journal of Advance Research and Innovative Ideas in Education (IJARIIE) 3 (5): 177-183. ISSN 2395-4396. オリジナルの2024-07-14時点におけるアーカイブ。. https://web.archive.org/web/20240714234251/https://ijariie.com/AdminUploadPdf/Optimization_of_Key_Frequency_in_Keyboard_Using_Mathematical_inclusion_of_Design_ijariie6564.pdf. 
  9. ^ The California job case” (英語). briarpress.org. One Art Design. 2024年11月13日時点のオリジナルよりアーカイブ。2025年3月29日閲覧。
  10. ^ Singh, Simon (2000) (英語). The Code Book. Anchor. pp. 14–20. ISBN 0-385-49532-3. NCID BA68183019. OCLC 59459928 
  11. ^ Marsha Lynn 2005, p. 13.
  12. ^ Marsha Lynn 2005, p. 11.
  13. ^ Marsha Lynn 2005, pp. 13, 20.
  14. ^ Randall Noon, K. (2010). "The Long and Short of It: CW Is Really Clever Stuff" (PDF). WorldRadio Online (英語). Vol. 40, no. 6. CQ Communications. p. 40. 2024年9月9日時点のオリジナル (PDF)よりアーカイブ。2025年4月3日閲覧
  15. ^ Ovidiu Calin (2020). “Statistics and Machine Learning Experiments in English and Romanian Poetry” (英語). Sci (MDPI) 2 (4): 2. doi:10.3390/sci2040092. ISSN 2413-4155. https://pdfs.semanticscholar.org/3797/35d390d93b8e2d430fe78b462ffd50460ce3.pdf 2025年4月22日閲覧。. 
  16. ^ a b 安岡 2006, pp. 17–18.
  17. ^ 安岡 2006, p. 37.
  18. ^ 田中哲朗「ハフマン符号を解く」『情報処理』第44巻第7号、情報処理学会、2003年、755-762頁、ISSN 04478053オリジナルの2022年5月17日時点におけるアーカイブ、2025年4月3日閲覧 
  19. ^ 計量国語学会 2009, pp. 238–239.
  20. ^ 計量国語学会 2009, pp. 238–248.
  21. ^ British and American spelling - Oxford Dictionaries” (英語). Oxford Dictionaries - English. 2011年12月28日時点のオリジナルよりアーカイブ。2018年4月18日閲覧。
  22. ^ Letter Frequencies” (英語). 2025年3月16日時点のオリジナルよりアーカイブ。2025年5月7日閲覧。
  23. ^ Li, Wentian; Miramontes, Pedro (2011). “Fitting ranked English and Spanish letter frequency distribution in US and Mexican presidential speeches” (英語). Journal of Quantitative Linguistics 18 (4): 359. arXiv:1103.2950. doi:10.1080/09296174.2011.608606. オリジナルの2025-07-27時点におけるアーカイブ。. https://web.archive.org/web/20240727001802/https://arxiv.org/pdf/1103.2950 2025年3月29日閲覧。. 
  24. ^ Gamow, George; Ycas, Martynas (1955). “Statistical correlation of protein and ribonucleic acid composition” (英語). Proc. Natl. Acad. Sci. 41 (12): 1011–1019. Bibcode1955PNAS...41.1011G. doi:10.1073/pnas.41.12.1011. JSTOR 89096. PMC 528190. PMID 16589789. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC528190/. 
  25. ^ Gusein-Zade, S.M. (1988). “Frequency distribution of letters in the Russian language” (ロシア語). Probl. Peredachi Inf. 24 (4): 102–107. 
  26. ^ Bauer, Friedrich L. (2006) (英語). Decrypted Secrets: Methods and maxims of cryptology. Springer. p. 57. ISBN 9783540481218. https://books.google.com/books?id=hfWTDr_bvMwC 
  27. ^ Goebel, Greg (2009) (英語). The Rise Of Field Ciphers: straddling checkerboard ciphers. オリジナルの2005年12月5日時点におけるアーカイブ。. https://web.archive.org/web/20051205013154/http://www.vectorsite.net/ttcode_03.html 
  28. ^ Rijmenants, Dirk. “One-time Pad” (英語). 2025年3月8日時点のオリジナルよりアーカイブ。2025年3月16日閲覧。
  29. ^ a b Chikamatsu 2000, p. 499.
  30. ^ a b 野崎浩成、横山詔一、磯本征雄、米田純子「文字使用に関する計量的研究 : 日本語教育支援の観点から」『日本教育工学雑誌』第20巻第3号、日本教育工学会、1996年、141-149頁、CRID 1390001204489626880doi:10.15077/jmet.20.3_141ISSN 0385-5236NAID 110003026289NCID AN00368220オリジナルの2020年12月12日時点におけるアーカイブ、2025年5月8日閲覧 
  31. ^ a b Chikamatsu 2000, p. 500.
  32. ^ 文化庁 2022, p. 8.
  33. ^ 文化庁 2022, p. 2.
  34. ^ 文化庁 2022, pp. 8–9.
  35. ^ a b 計量国語学会 2009, pp. 47–48.
  36. ^ 村山 1981, pp. 5–6.
  37. ^ 野崎浩成、清水康敬「新聞における漢字頻度特性の分析とNIEのための漢字学習表の開発」『日本教育工学雑誌』第24巻第2号、日本教育工学会、2000年、121-132頁、CRID 1390001204488401152doi:10.15077/jmet.24.2_121ISSN 0385-5236NAID 110003026392NCID AN00368220 
  38. ^ Lewand, Robert (2000) (英語). Cryptological Mathematics. Mathematical Association of America. p. 36. ISBN 978-0883857199. NCID BA51307547. OCLC 45467783. https://books.google.com/books?id=CyCcRAm7eQMC&pg=PA36 English letter frequencies” (英語). 2008年7月8日時点のオリジナルよりアーカイブ。2008年6月25日閲覧。
  39. ^ What is the frequency of the letters of the alphabet in English?” (英語). Oxford Dictionary. オックスフォード大学出版局. 2011年12月24日時点のオリジナルよりアーカイブ。2012年12月29日閲覧。
  40. ^ Mička, Pavel. “Letter frequency (English)” (チェコ語). Algoritmy.net. 2024年8月3日時点のオリジナルよりアーカイブ。2025年3月17日閲覧。
  41. ^ English Letter Frequency (based on a sample of 40,000 words)” (英語). cornell.edu. 2025年1月1日時点のオリジナルよりアーカイブ。2021年1月24日閲覧。
  42. ^ Statistical Distributions of English Text” (英語). data-compression.com. 2017年9月18日時点のオリジナルよりアーカイブ。2025年3月16日閲覧。
  43. ^ Lee, E. Stewart. “Essays about Computer Security” (英語). University of Cambridge Computer Laboratory. p. 181. 2024年5月15日時点のオリジナルよりアーカイブ。2025年3月15日閲覧。
  44. ^ Robert L. Solso; Connie Juel; David C. Rubin (1982). “The frequency and versatility of initial and terminal letters in English words” (英語). Journal of Verbal Learning and Verbal Behavior (Academic Press) 21 (2): 220-235. doi:10.1016/S0022-5371(82)90581-3. ISSN 0022-5371. オリジナルの2024-04-15時点におけるアーカイブ。. https://web.archive.org/web/20240415073808/https://dukespace.lib.duke.edu/server/api/core/bitstreams/cffcfdce-2a27-417f-8c4a-665283b5db0b/content 2025年5月8日閲覧。. 
  45. ^ Ohlman, Herbert Marvin (1959) (英語). Subject-Word Letter Frequencies with Applications to Superimposed Coding. Proceedings of the International Conference on Scientific Information. doi:10.17226/10866. ISBN 978-0-309-57421-1. http://books.nap.edu/openbook.php?record_id=10866&page=903 
  46. ^ Cutter Classification” (英語). forbes library. 2025年3月28日時点のオリジナルよりアーカイブ。2025年3月28日閲覧。
  47. ^ Pande, Hemlata; Dhami, H.S.. “Mathematical Modelling of Occurrence of Letters and Word's Initials in Texts of Hindi Language” (英語). JTL (The Slovak Association for the Study of English) 7 (2). ISSN 1336-782X. http://www.skase.sk/Volumes/JTL16/pdf_doc/02.pdf. 
  48. ^ a b Golbeck 2023, pp. 1–3.
  49. ^ English Letter Frequency Counts: Mayzner revisited or ETAOIN SRHLDCU” (英語). norvig.com. 2025年3月16日時点のオリジナルよりアーカイブ。2018年4月18日閲覧。
  50. ^ Grigas 2018, pp. 21–22.
  51. ^ Corpus de Thomas Tempé” (フランス語). 2007年9月30日時点のオリジナルよりアーカイブ。2007年6月15日閲覧。
  52. ^ Beutelspacher, Albrecht (2005). Kryptologie (7 ed.). Wiesbaden: Vieweg. p. 10. ISBN 3-8348-0014-7 
  53. ^ Pratt, Fletcher (1942) (英語). Secret and Urgent: The story of codes and ciphers. Garden City, NY: Blue Ribbon Books. pp. 254–5. ASIN B0007DRU3A. OCLC 795065 
  54. ^ Frequência da ocorrência de letras no Português” (ポルトガル語). 2009年8月3日時点のオリジナルよりアーカイブ。2009年6月16日閲覧。
  55. ^ Singh, Simon; Galli, Stefano (1999) (イタリア語). Codici e Segreti. Milano: Rizzoli. ISBN 978-8-817-86213-4. OCLC 535461359 
  56. ^ Serengil, Sefik Ilkin; Akin, Murat (20 February 2011). Attacking Turkish Texts Encrypted by Homophonic Cipher (PDF). Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications (英語). Cambridge, UK. pp. 123–126. 2023年3月21日時点のオリジナル (PDF)よりアーカイブ。
  57. ^ Practical Cryptography” (英語). 2025年1月18日時点のオリジナルよりアーカイブ。2013年10月30日閲覧。
  58. ^ Frekwencja liter w polskich tekstach - Poradnia językowa PWN” (ポーランド語). 2024年9月11日時点のオリジナルよりアーカイブ。2025年3月15日閲覧。
  59. ^ Letterfrequenties” (オランダ語). Genootschap OnzeTaal. 2024年4月20日時点のオリジナルよりアーカイブ。2009年5月17日閲覧。
  60. ^ Danish letter frequencies” (英語). Practical Cryptography. 2024年8月7日時点のオリジナルよりアーカイブ。2013年10月24日閲覧。
  61. ^ Icelandic letter frequencies” (英語). Practical Cryptography. 2024年9月10日時点のオリジナルよりアーカイブ。2013年10月24日閲覧。
  62. ^ Finnish letter frequencies” (英語). Practical Cryptography. 2025年1月18日時点のオリジナルよりアーカイブ。2013年10月24日閲覧。
  63. ^ “Statistika českých grafémů s využitím moderní výpočetní techniky” (チェコ語). Slovo a slovesnost (Czech Language Institute, Czech Academy of Sciences) 44 (4): 295–304. (1983). ISSN 0037-7031. http://sas.ujc.cas.cz/archiv.php?art=2913 2025年3月25日閲覧。. 
  64. ^ Hungarian character frequencies”. Wolfram Alpha. 2023年3月25日閲覧。
  65. ^ I made some software…” (英語) (2023年4月27日). 2025年3月15日閲覧。
  66. ^ Grigas, Gintautas; Juškevičienė, Anita (2015-12-28). “Letter Frequency Analysis of Lithuanian and Other Languages Using the Latin Alphabet” (リトアニア語). Coactivity: Philology, Educology / Santalka: Filologija, Edukologija (ヴィリニュス・ゲディミナス工科大学) 23 (2): 81–91. doi:10.3846/cpe.2015.271. ISSN 2335-7711. オリジナルの2019-04-30時点におけるアーカイブ。. https://web.archive.org/web/20190430192909/http://www.cpe.vgtu.lt/index.php/cpe/article/download/271/271-1146-1-PB.pdf 2022年2月2日閲覧。. 
  67. ^ Grigas 2018, p. 18.
  68. ^ Perec, Georges (1976) (フランス語). Alphabets : cent soixante-seize onzains hétérogrammatiques. Éditions Galilée. ISBN 2-7186-0051-9. NCID BA25161091. LCCN 77-465787. OCLC 3166564 
  69. ^ Welke letters worden in het Nederlands het meest gebruikt?” (オランダ語). Genootschap OnzeTaal. 2024年4月20日時点のオリジナルよりアーカイブ。2008年12月26日閲覧。
  70. ^ a b Stefan Trost. “Stefan Trost's website: Russian”. Stefan Trost Media. 2024年11月11日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  71. ^ a b Stefan Trost. “Stefan Trost's website: greek”. Stefan Trost Media. 2024年10月8日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  72. ^ a b Stefan Trost. “Stefan Trost's website: Hebrew”. Stefan Trost Media. 2024年9月9日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  73. ^ a b Stefan Trost. “Stefan Trost's website: Hindi”. Stefan Trost Media. 2025年1月21日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  74. ^ a b c Chen 2012, p. 235.
  75. ^ a b c d e Chen 2012, p. 234.
  76. ^ 张冰冰; 吴媛梦; 王宇辰; 李洁; 杨澜 (2021). “键盘字母排序的频率理论” (中国語). 应用数学进展 (汉斯出版社) 10 (5): 1455-1464. doi:10.12677/AAM.2021.105155. ISSN 2324-7991. オリジナルの2024-11-23時点におけるアーカイブ。. https://web.archive.org/web/20241123224429/https://pdf.hanspub.org/aam20210500000_60217654.pdf. 
  77. ^ a b 张冰冰 2021, p. 1461.
  78. ^ 金 2005, p. 11.
  79. ^ 金 2005, pp. 15–30.
  80. ^ 文教部 1955, pp. 108–116.
  81. ^ 文教部 1955, p. 178.
  82. ^ Md. Abdus Sattar; Al-Mukaddim Khan Pathan; Mohammad Ameer Ali (2004). Development of an optimal bangla keyboard layout based on character and fingering frequency. National Conference on Computer Processing of Bangla (英語). Independent University, Bangladesh. pp. 38–46.
  83. ^ Aunnoy K Mutasim; Ali Shihab Sabbir; M. Ashraful Amin (2016). Devising a Strategy for Playing Bangla Hangman (Jhulonto Manob) Based on Character Frequency Distribution. 5th International Conference on Informatics, Electronics & Vision (ICIEV) (英語). IEEE. doi:10.1109/ICIEV.2016.7759993. ISBN 978-1-5090-1269-5. OCLC 1010117749
  84. ^ a b c d Aroonmanakun, Wirote (2006). List of Thai characters sorted by frequency (PDF). International Conference: Wisdom and Dynamism of Thai Language and Literature. 2025年2月19日時点のオリジナル (PDF)よりアーカイブ。
  85. ^ a b A study of Arabic letter frequency analysis” (英語). 2025年3月17日時点のオリジナルよりアーカイブ。2025年4月26日閲覧。
  86. ^ 影浦峡『計量情報学 : 図書館/言語研究への応用』丸善出版、2000年、3-4頁。ISBN 978-4621047583NCID BA46412597OCLC 674466720 
  87. ^ a b c d Manning 2017, pp. 20–21.
  88. ^ Vjaĉeslav Slavik Ivanov. “Frekvencvortaro” (エスペラント). 2024年2月24日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  89. ^ Yukio Tono; Makoto Yamazaki; kikuo Maekawa (2013) (英語). A frequency dictionary of Japanese : core vocabulary for learners. ラウトレッジ. pp. 10-242. ISBN 9780415610124. NCID BB11718339. LCCN 2012-21445. OCLC 731925237 
  90. ^ The OEC: Facts about the language” (英語). OxfordDictionaries.com. オックスフォード大学出版局. 2011年12月26日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  91. ^ 刘海涛エスペラント語版. “Informadikaj aspektoj de Interlingvistiko” (エスペラント). 2011年9月6日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  92. ^ Gledhill, Christopher (1998): The Grammar of Esperanto. A corpus-based description. München: Lincom Europa, 151 p.” (英語). 2011年7月19日時点のオリジナルよりアーカイブ。2012年1月8日閲覧。
  93. ^ Bernardo (2010年1月15日). “La du plej oftaj vortoj: "la" kaj "kaj" – iom pri oftec-vortaroj” (エスペラント). Ipernity. 2018年4月9日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  94. ^ 「98円」や「2,980円」などの中途半端な価格設定が多いのはなぜでしょうか?”. 心理学ってなんだろう. 公益社団法人日本心理学会. 2024年12月9日時点のオリジナルよりアーカイブ。2025年3月22日閲覧。
  95. ^ Schindler 2009, p. 18.
  96. ^ Schindler 2009, pp. 17–18.
  97. ^ J. Holdershaw; P. Gendall; R. Garland (1997). “The Widespread Use Of Odd Pricing In The Retail Sector” (英語). Marketing Bulletin 8: 53-58. オリジナルの2025-03-16時点におけるアーカイブ。. https://web.archive.org/web/20250316182614/https://marketing-bulletin.massey.ac.nz/V8/MB_V8_N1_Holdershaw.pdf 2025年3月16日閲覧。. 
  98. ^ a b 浜田 2019, pp. 34–35.
  99. ^ Golbeck 2023, p. 2.
  100. ^ a b 浜田 2019, p. 34.
  101. ^ 浜田 2019, pp. 33–35.
  102. ^ Theodore P. Hill (1995). “The Significant-Digit Phenomenon” (英語). The American Mathematical Monthly (Taylor & Francis) 102 (4): 322-327. doi:10.2307/2974952. ISSN 0002-9890. JSTOR 2974952. OCLC 1026998798. 
  103. ^ 石井 1990, p. 193.
  104. ^ a b 石井 1990, pp. 193–194.
  105. ^ a b 石井 1990, p. 194.

参考文献

関連項目

外部リンク

便利な表

以下の文献は英単語の3から7文字目までの文字の位置や単語の長さを考慮した20,000単語中の単文字、連接文字、3文字、4文字、5文字の出現頻度をまとめた表が記載されている:

  • Mayzner, M.S.; Tresselt, M.E.; Wolin, B.R. (1965). “Tables of single-letter and digram frequency counts for various word-length and letter-position combinations” (英語). Psychonomic Monograph Supplements 1 (2): 13–32. OCLC 639975358. 
  • Mayzner, M.S.; Tresselt, M.E.; Wolin, B.R. (1965). “Tables of trigram frequency counts for various word-length and letter-position combinations” (英語). Psychonomic Monograph Supplements 1 (3): 33–78. 
  • Mayzner, M.S.; Tresselt, M.E.; Wolin, B.R. (1965). “Tables of tetragram frequency counts for various word-length and letter-position combinations” (英語). Psychonomic Monograph Supplements 1 (4): 79–143. 
  • Mayzner, M.S.; Tresselt, M.E.; Wolin, B.R. (1965). “Tables of pentagram frequency counts for various word-length and letter-position combinations” (英語). Psychonomic Monograph Supplements 1 (5): 144–190. 



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  文字の使用頻度のページへのリンク

辞書ショートカット

すべての辞書の索引

「文字の使用頻度」の関連用語

文字の使用頻度のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



文字の使用頻度のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの文字の出現頻度 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS