静岡大学 人文社会科学部 言語文化学科 比較言語文化コース 城岡研究室


 

 

  • データベースには日本の姓が 約2万5千種類 集めてあります. 全国の電話番号登録件数が40件以上の姓です(調査は「写録宝夢巣」のVer.1、1997)。なお,読みの違いは考慮していません.以前の電話帳は 正確に五十音順に並べられていませんでしたし、現在でも読みは入いってい ませんので、電子電話帳の類で読みを調べることはできません。姓の読みを生命保険会社のデータなどをもとに調査編集した『日本人の姓 表記編』(日本ユニバック編、日本経済新聞社、1978)がありますが、一般の方が想像する以上に姓の読み方は複雑です。例をあげましょう。「木下」さんならキノシタの読み方のひとしかご存じないひとが多いのではないでしょうか。しかし、キシタ、キゲ、キオロシの読み方もあるのです。したがって、姓の読み方を自分の判断で推定するということは不可能だと思った方がよいでしょう。

読みの違いと姓の数について(クリックで非表示と表示の切り替え)

  • 電話番号登録件数はおおよそ世帯数をしめすことになりますが,人口はその4倍程度あると思われます.したがって,481980件の登録件数のある佐藤さんの場合でいえば,人口は200万人弱でしょう.なお,最近は携帯電話の普及が関係しているようですが,電話帳の 電話番号登録件数は減少しつつあります.

  • データは電話帳に登録されたデータに基づいていますので,本名でなく,芸名や変名,また外国人の姓の可能性もあります.とくに漢字文化圏から日本に来たひとの場合は姓で区別はできません.この点についてもっと詳しく知りたい方はこちらへどうぞ.

  • ドイツの上位200姓アメリカの上位200姓が知りたい方はこちらのページをご覧ください.

  • 電話番号登録件数が同数の場合は同一順位として表示します.

  • 登録データには小文字のカタカナやひらがなはありません.したがって,「三ッ矢」ではなく「三ツ矢」というふうにすべて通常の文字で入力してください.

 


姓は漢字で入力してください

 

  あなたの姓の全国での順位と電話番号登録件数は 

順位 登録件数

全国に40件以上の電話帳登録件数がある姓しか検索できません。

 


上位10000姓を表形式で200姓ずつ提示


電話登録数と順位についてのデータベースはいちおう完成(2003年12月)

(クリックで非表示と表示の切り替え)
 

 データベースは全国電話帳のデータが電子化されている『写録宝夢巣』(日本ソフト,Ver1,1997)で全国の電話番号登録件数を調査して作成しました.『写録宝夢巣』は検索はできますが,中身のデータは のぞけませんので,各種の姓のリストをもとにひとつひとつ姓を検索してデータベースを作成しています.最初に利用したのが佐久間英さんの『日本人の姓』(六藝書房,1972)にある上位6000の姓や4文字姓(※)のリストです. 佐久間さんのランキング表は電子電話帳などがなかった時代に各種の名簿データをご家族とともに7年半も調査され,それに基づいて作成された労作です.また, 「日本の姓の全国順位データベース」の作成にあたっては身近にある各種の名簿に掲載されている姓やインターネット上で公開されている各種の姓のデータも利用しました.新聞 に珍しそうな姓が出てくるとそれも調査しました.また,このページの検索機能を利用された方でメイルで未登録姓を教えてくださった方が何人もいらっしゃいます (岐阜県土岐市の長谷川善政さん や富山県新湊市の澤谷さんほかたくさんの方).そんなこんなで2003年12月までに4万姓をちょっと超えるところまでデータベースが育っていましたが,そこへ姓氏研究家の村山忠重さんから村山さんが『写録宝夢巣』Ver.1 でしらべた約10万姓のリストを提供しましょうという思いもよらぬ申し出をいただきました.村山さんのデータは日本の姓の網羅的なデータです.なぜならテキストファイル で提供されていた別の全国版電子電話帳のデータをもとに『写録宝夢巣』でしらべたものだからです.事実,いただいたリストにはわたしが集めた4万姓のリストは3姓をのぞいてすべて含まれていました. 村山さんのデータを加え,これで一挙に約10万姓のデータベースが完成です.

村山さんからいただいたリストはわたしのリストに単に6万姓を加えたというだけではありません.わたしのデータと村山さんのデータを比較することで,二人のデータが重なる4万姓程度についてはデータを二重にチェックしたことになり,データベースの信頼性を増すことができました. わたしはデータの作成時には同一姓が二重に登録されていないか,数値の順番が間違っていないかなどは awk のスクリプトを書いてチェックしていました.しかし,データの入力ミスまではチェックできません.すべての姓を『写録宝夢巣』で再検索してデータが正しいことを確認するというのはとても時間がかかりますし,実用的ではありません.村山さんのリストのおかげでわたしのリストと比較して同一姓で数値が異なるものをチェックすることができました.大量のデータを扱う場合はやはり多少は検索ミス,入力ミスなどがあるようです(村山さんよりもわたしの方が頻繁にこういうミスをしていました).

そもそも電子化された電話帳データで姓の頻度調査などをする場合にはいくつかの問題点があります.まず,すべてのひとが登録しているわけではありませんし,誤登録の問題もあります.

電話帳を含めて多くの名簿では姓と個人名が必ずしも明確に分けられているわけではありません.二字姓と二字名の場合は姓と個人名のあいだに「山本 一郎」のようにスペースがあっても三字姓や三字名が使われると 「鈴木健太郎」や「佐々木一郎」のように姓と個人名のあいだのスペースがなくなってしまうような名簿の作り方は広く行われているようです.こういう作り方の名簿データではどこまでが姓なのか 正確に判断することは容易ではありません.それがある程度可能なのは姓の終わりや名前の始めに特徴的な漢字や読みが使われているためだと考えられます.名前を付けるときにはっきりと意識されているかどうか分かりませんが,姓と個人名の境目があいまいにならないように命名する習慣があります.たとえば,姓の最後は「田」「野」「川」「山」「谷」「井」の順に多用されていますが,これらの漢字や読みは姓の終わりを示す働きがあり,読みも含めてこういう漢字は名前の先頭ではあまり使われません. そうでなければ,「柳田一」という名は「柳」と「田一」に分かれるのか,「柳田」と「一」に分かれるのか正確に予測することができません.もちろん,「田鶴子」のような 例外的な名前も現実にあります.「沢子」や「沢美」のような名前もまったく使われていないわけではありませんが,それほど多く使われていないのはやはり姓との境界を不鮮明にしてしまうこと と関係しているように思います.大阪市の木村朝之さんという方からメイルをいただいたのですが,電子電話帳のデータを使った『写録宝夢巣』のVer.1で姓と個人名の分析を間違えている例に「賀」を個人名の先頭に使う「渡慶次」さんがあったようです.「渡慶次」さんは『写録宝夢巣』Ver.7によると全国に607件の電話登録があり,そのうち543件が沖縄県という沖縄県 の姓です.沖縄では86位の姓です.この「渡慶次」さんの中に「賀英」や「賀久」や「賀一郎」のような名前を付ける方がいらっしゃるようで,『写録宝夢巣』Ver.1では「渡慶次賀」という姓として扱われているようです.『写録宝夢巣』Ver.1で「渡慶次賀」を検索すると,この姓の方の電話番号が全国に18件登録されていることになっています.この存在しない「渡慶次賀」さんは「日本の姓の全国順位データベース」には含めてありません.この18件の,実際には存在しない「渡慶次賀」さんですが,「渡慶次」さんの件数に加算すべきだったかもしれませんが,データベースではその修正もほどこしてありません.

また,電子電話帳は電話帳データを機械で読み取って電子データ化していますから,読み取り精度の問題も絡んでくるようです.JIS第二水準以上の漢字などを使った姓は不正確になる場合がかなりあると思われます.たとえばハシゴ高と呼ばれる「」は現在は入力可能になりましたが,元の電子電話帳のデータには存在せず,したがって区別することもできません.

※ 現存の日本の姓でもっとも文字数が多い姓は五文字姓らしく,「左衛門三郎」と「勘解由小路」の二つがあります.通常わたしたちが目にするもっとも長い姓は四文字姓で佐久間氏は200足らずをあつめています.


 

姓の字数分布と姓で使われる漢字について

上位10000姓について平均文字数や字数分布を出しておきましょう.2003年10月現在のデータで9987位が32姓ありましたので,合計10019姓についてのデータです.文字数は累積で合計20444文字ありましたから,1姓あたり平均2.04文字です.字数の分布は圧倒的に2文字姓が多く,その次が3文字姓です.上位10000位に登場する4文字姓は「勅使河原」,「勅使川原」,「小比類巻」,「大豆生田」,「一番ケ瀬」の5姓です.

上位10019姓の字数分布

1文字姓:

363姓

( 3.62%)

2文字姓:

8892姓

(88.75%)

3文字姓:

759姓

( 7.58%)

4文字姓:

5姓

( 0.05%)

 

次に,姓で使われている頻度の高い漢字について考えてみましょう.姓の先頭で頻度の高い字.末尾で頻度の高い字,位置の区別をしない場合の高頻度漢字の三つの上位50位の 漢字を表にしておきます.なお,1文字姓については先頭と末尾の文字で同一の文字をかぞえています.


上位10000姓 における50位までの高頻度使用漢字(クリックで非表示と表示の切り替え)

 
先頭の文字 末尾の文字 総合

よく使われている上位50位の漢字について姓のどの位置で使われているか考えてみると,位置によって使用頻度のかなり変わってくる漢字もあるようです.先頭でも末尾でも使われているのが井, 永, 岡, 下, 宮, 江, 坂, 山, 松, 上, 森, 石, 川, 村, 谷, 中, 田, 藤, 尾, 平, 木, 野の22の漢字です.先頭だけで使われているのが,安, 伊, 稲, 横, 河, 岩, 吉, 久, 金, 古, 高, 今, 佐, 三, 小, 新, 神, 水, 西, 赤, 大, 池, 竹, 長, 日, 白, 福, 北, 矢の29字です.大きさを表す「大」や「小」は基本的に先頭だけで使われるようです.上位1万姓に「大」や「小」を末尾にとる姓はありません.「中」は姓では大きさではなく,「内部」のような意味で使われるようで,「大」や「小」とはことなっていて,先頭でも末尾でも使われています.大雑把に言えば,「横」「吉」「久」「古」「高」「今」「新」「西」「北」「赤」「白」「福」のような抽象的意味の漢字が姓の先頭で使われることが多くなるようです.もちろん,方角の「西」などでも「大西」を始め末尾で使う姓もかなりありますから,先頭で使われやすいといっても相対的なもののようです.「上」や「下」なども抽象的な意味の漢字ですが,先頭でも末尾でも使われています.50位までの漢字で末尾だけで使われている漢字が浦, 屋, 間, 橋, 見, 元, 原, 戸, 口, 根, 崎, 沼, 城, 場, 瀬, 倉, 沢, 地, 津, 塚, 島, 嶋, 内, 畑, 部, 本, 林, 澤の28字になります.この中に「見」がありますが,「三」なら基本的に先頭で使われる漢字ですから(上位10000姓での例外は「一二三」だけです),「ミ」は姓の先頭では「三」になりやすく,末尾では「見」になりやすいと考えることができそうです. 上位10000姓(厳密には10019姓)に「見」で始まる姓は「見上」, 「見目」, 「見城」, 「見崎」, 「見田」, 「見沢」, 「見山」, 「見原」, 「見留」の9姓しかありませんが,「見」で終わる姓は86姓あります.

同様に「矢」なら先頭で,「屋」なら末尾という傾向がありそうです.また,濁音で読む「場」や「部」も姓の末尾ではかなり使われていますが, 「部」の歴史的意味だけでなく,日本語の本来の和語では基本的に濁音で始まらなかったことと関係しているように思われますが,姓の先頭ではほとんど出てこないようです(上位10000姓の範囲では例外は「部谷」だけです). 「服部」のように濁音で読まないものも混じっていますが,「場」や「部」で終わる姓は上位10000姓(厳密には10019姓)に163姓ありました.


このサイトではCGIの利用が許可されていませんので.検索にはマイクロソフトのTDC(Tabular Data Control)を利用しています.そのため Internet Explorer の 4 以上でないと動作しません.TDCではデータベース全体をクライアント側のパソコンであらかじめ読み込むため, 時間がかかりますが、CGIを利用しない検索がTDCを使うことで可能になっていますので,ご了承ください.Internet Explorer 以外で利用なさりたい方は、CSVデータをダウンロードして、ご自分のパソコンでエクセルなどで検索していただくことも可能です。

電話帳登録件数40件以上のデータの公開を始めました(2011年8月から)。データの著作権は城岡啓二+村山忠重にあります。教育や研究や学習などの有意義な目的のためには無償で自由に利用していただいて構いませんが、データを引用する場合、オリジナルデータの著作権者を明示してください。データの再利用の場合は、オリジナルデータの著作権者を明示する場合は、オリジナルデータの情報(姓、順位、件数)を改変することなく、利用してください。なお、本データには下記の制約があります。

順位の元になっているのは、1997年版の「写録宝夢巣」(日本ソフト)を検索して得られる全国の電話帳登録件数です。このソフトの問題点はこのHPで利用しているデータの問題点にもなっています。「写録宝夢巣」の元になっているデータはOCRで読みとっているものと考えられますが、画数の多い、複雑な漢字の読み取りは正確ではありません(複数のヴァージョンでゆれが大きいことも確認されています)。通称や店名がいちぶ混じっています。同一個人が複数の電話番号で登録されている場合もあります。姓と個人名の分離に失敗していて、件数が不正確になる場合もあります(上でも「「渡慶次・賀」の問題点を指摘しましたが、「仲利」という姓でも「仲」と「利弘」に分離してしまうような場合が生じます)。

CSVファイル(著作権者:城岡啓二+村山忠重、公開:2011年8月)


城岡研のトップページ

静岡県の姓(順位,集中度,分布,地名)

shirooka@nifty.com