静岡大学 人文社会科学部 言語文化学科 比較言語文化コース 城岡研究室 |
読みの違いと姓の数について(クリックで非表示と表示の切り替え)
|
姓は漢字で入力してください |
あなたの姓の全国での順位と電話番号登録件数は
姓 | 順位 | 登録件数 |
全国に40件以上の電話帳登録件数がある姓しか検索できません。
上位10000姓を表形式で200姓ずつ提示 |
電話登録数と順位についてのデータベースはいちおう完成(2003年12月)
(クリックで非表示と表示の切り替え)
|
上位10000姓について平均文字数や字数分布を出しておきましょう.2003年10月現在のデータで9987位が32姓ありましたので,合計10019姓についてのデータです.文字数は累積で合計20444文字ありましたから,1姓あたり平均2.04文字です.字数の分布は圧倒的に2文字姓が多く,その次が3文字姓です.上位10000位に登場する4文字姓は「勅使河原」,「勅使川原」,「小比類巻」,「大豆生田」,「一番ケ瀬」の5姓です.
よく使われている上位50位の漢字について姓のどの位置で使われているか考えてみると,位置によって使用頻度のかなり変わってくる漢字もあるようです.先頭でも末尾でも使われているのが井, 永, 岡, 下, 宮, 江, 坂, 山, 松, 上, 森, 石, 川, 村, 谷, 中, 田, 藤, 尾, 平, 木, 野の22の漢字です.先頭だけで使われているのが,安, 伊, 稲, 横, 河, 岩, 吉, 久, 金, 古, 高, 今, 佐, 三, 小, 新, 神, 水, 西, 赤, 大, 池, 竹, 長, 日, 白, 福, 北, 矢の29字です.大きさを表す「大」や「小」は基本的に先頭だけで使われるようです.上位1万姓に「大」や「小」を末尾にとる姓はありません.「中」は姓では大きさではなく,「内部」のような意味で使われるようで,「大」や「小」とはことなっていて,先頭でも末尾でも使われています.大雑把に言えば,「横」「吉」「久」「古」「高」「今」「新」「西」「北」「赤」「白」「福」のような抽象的意味の漢字が姓の先頭で使われることが多くなるようです.もちろん,方角の「西」などでも「大西」を始め末尾で使う姓もかなりありますから,先頭で使われやすいといっても相対的なもののようです.「上」や「下」なども抽象的な意味の漢字ですが,先頭でも末尾でも使われています.50位までの漢字で末尾だけで使われている漢字が浦, 屋, 間, 橋, 見, 元, 原, 戸, 口, 根, 崎, 沼, 城, 場, 瀬, 倉, 沢, 地, 津, 塚, 島, 嶋, 内, 畑, 部, 本, 林, 澤の28字になります.この中に「見」がありますが,「三」なら基本的に先頭で使われる漢字ですから(上位10000姓での例外は「一二三」だけです),「ミ」は姓の先頭では「三」になりやすく,末尾では「見」になりやすいと考えることができそうです. 上位10000姓(厳密には10019姓)に「見」で始まる姓は「見上」, 「見目」, 「見城」, 「見崎」, 「見田」, 「見沢」, 「見山」, 「見原」, 「見留」の9姓しかありませんが,「見」で終わる姓は86姓あります. 同様に「矢」なら先頭で,「屋」なら末尾という傾向がありそうです.また,濁音で読む「場」や「部」も姓の末尾ではかなり使われていますが, 「部」の歴史的意味だけでなく,日本語の本来の和語では基本的に濁音で始まらなかったことと関係しているように思われますが,姓の先頭ではほとんど出てこないようです(上位10000姓の範囲では例外は「部谷」だけです). 「服部」のように濁音で読まないものも混じっていますが,「場」や「部」で終わる姓は上位10000姓(厳密には10019姓)に163姓ありました. |
このサイトではCGIの利用が許可されていませんので.検索にはマイクロソフトのTDC(Tabular Data Control)を利用しています.そのため Internet Explorer の 4 以上でないと動作しません.TDCではデータベース全体をクライアント側のパソコンであらかじめ読み込むため, 時間がかかりますが、CGIを利用しない検索がTDCを使うことで可能になっていますので,ご了承ください.Internet Explorer 以外で利用なさりたい方は、CSVデータをダウンロードして、ご自分のパソコンでエクセルなどで検索していただくことも可能です。 電話帳登録件数40件以上のデータの公開を始めました(2011年8月から)。データの著作権は城岡啓二+村山忠重にあります。教育や研究や学習などの有意義な目的のためには無償で自由に利用していただいて構いませんが、データを引用する場合、オリジナルデータの著作権者を明示してください。データの再利用の場合は、オリジナルデータの著作権者を明示する場合は、オリジナルデータの情報(姓、順位、件数)を改変することなく、利用してください。なお、本データには下記の制約があります。 順位の元になっているのは、1997年版の「写録宝夢巣」(日本ソフト)を検索して得られる全国の電話帳登録件数です。このソフトの問題点はこのHPで利用しているデータの問題点にもなっています。「写録宝夢巣」の元になっているデータはOCRで読みとっているものと考えられますが、画数の多い、複雑な漢字の読み取りは正確ではありません(複数のヴァージョンでゆれが大きいことも確認されています)。通称や店名がいちぶ混じっています。同一個人が複数の電話番号で登録されている場合もあります。姓と個人名の分離に失敗していて、件数が不正確になる場合もあります(上でも「「渡慶次・賀」の問題点を指摘しましたが、「仲利」という姓でも「仲」と「利弘」に分離してしまうような場合が生じます)。 CSVファイル(著作権者:城岡啓二+村山忠重、公開:2011年8月) |