とうけい‐がく【統計学】
統計学
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/10 02:51 UTC 版)
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2021年3月) |


統計学(とうけいがく、英: statistics)とは、統計に関する研究を行う学問である。経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供するため、幅広い分野で応用されている[注釈 1]。
物理学・経済学[2][3]・社会学・心理学[4]・言語学といった人文科学・社会科学・自然科学(基礎科学)から、工学・医学[5]・薬学といった応用科学まで、実証分析を伴う科学の分野において必須の学問となっている。また、科学哲学における重要なトピックの一つでもある。
語源
英語で統計または統計学を「
なお、統計学という語は、ドイツの政治学者ゴットフリート・アッヘンヴァルが1749年に『ヨーロッパ諸国国家学綱要』の中で、それまでドイツ語で「Staatenkunde」(「国情論」の意味)と呼ばれていた[6]学問に「
日本語の「統計」という語の起源は明確にはなっていないが、幕末から明治初年にかけての洋学者である柳川春三が初めて現在の意味でこの語を使用したと考えられており、明治2年(1869年)には彼の編纂した冊子においてこの語と用法が使用されたとの記述がある。その後、明治4年(1871年)には大蔵省に「統計司」(後に「統計寮」に改組)が置かれ、次第にこの語が広まっていった[8]。
分類
記述統計学と推計統計学
統計学は「記述統計学 (descriptive statistics) 」 と「推計統計学(inferential statistics、推測統計学とも) 」に分類できる[9]。記述統計学はデータの特徴を記述する学問であり、推計統計学は標本から母集団を推計する学問である。
記述統計学は、データ1つがもつ特徴を記述・説明することに着目した分野である[9]。例えば小学生99人の身長データがあったとする。データの値は個別の小学生のものであり、100人全体の特徴は値を個別に見ただけでは分からない。ここでデータの値を身長順に並べ、50番目の値を見れば「この小学生99人の"普通"の身長はだいたい110 cmである」と記述できる。50番目の値は中央値という。このように、データ全体の特徴を要約・記述することが記述統計学の大きな目的・方法論である。
推計統計学は、母集団からの標本化を前提とし、標本から母集団を推測する分野である[9]。例えば世界の小学生の身長特性を知りたいとする。全世界の小学生の身長を計測し記述統計学によって中央値や平均値を記述すれば、目的である世界の小学生の身長特性は解明できる。しかしその計測は著しく困難(事実上不可能)である。そこで推計統計学では、まず小学生100人の身長データ(標本と呼ぶ)を集める。そして標本は全世界の小学生という母集団からランダムに選ばれたものだと考える。ランダムに選ばれた100人の身長中央値(標本の中央値)は必ずしも世界小学生身長中央値(母集団の中央値)と一致しないと考えられるが、"似た"数値にはなると期待される。すなわち標本から母集団の特性を推測することができる。この、標本から母集団を推測する方法論に関する分野が推計統計学である。
このように、記述統計学はデータ(推計統計学でいう標本)の説明・記述を行い、推計統計学は母集団(の記述)の推測をおこなう。両分野の違いは、記述統計学では目の前にあるデータがすべて(母集団という考え方はない)のに対し、推計統計学ではむしろ目の前のデータは(真なる)母集団から今回たまたま選ばれた標本だと考える点にある。一方で、推計統計学では標本の記述統計から母集団の統計量を推測するように、この2分野は非常に密接に絡んでおり全く別の分野と考えることは不適切である。
統計的手法
![]() | この節は検証可能な参考文献や出典が全く示されていないか、不十分です。(2011年11月) |
- 実験計画法
- データ収集の規模や対象、割付方法をコントロールし、より公正で評価可能なデータが収集できるよう検討すること。統計の世界には「ゴミのようなデータを使っていくら解析しても出てくる結果はゴミばかりだ」[10]という格言がある[11]。これはデータ収集の前にその方法を十分に検討する必要があることを強調したものである。
これらは、意思決定に応用されている。
歴史
統計学の源流は国家または社会全体における人口あるいは経済に関する調査にある[12]。このことは、東西を問わず古代から行われている。
学問としては、17世紀にはイギリスでウィリアム・ペティの『政治算術』(1790年)などが著述され、その後の社会統計学に繋がる流れが始まった。彼の提唱した政治算術そのものは18世紀に衰退するものの、ペティは統計学の父とも呼ばれる[13]。また同時期、ペティの友人であるジョン・グラント(英語: John Graunt)が『死亡表に関する自然的および政治的諸観察』(1662年)を表し、人口統計学の源流となった[14]。この死亡統計の研究はエドモンド・ハレーなども行うようになった[15]。これらの影響の基、18世紀にはドイツのヨハン・ペーター・ジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった[16]。
ドイツでは17世紀からヘルマン・コンリングなどによってヨーロッパ各国の国状の比較研究が盛んになり、1749年にゴットフリート・アッヘンヴァルがこれにドイツ語で「
19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、「Statistik」の語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃には、1748年のスウェーデンを皮切りに国勢調査も行われるようになり、1790年には下院の議員数算定のためにアメリカがこれに続き、イギリス、フランスなど西ヨーロッパ諸国においても1830年頃までには国勢調査が行われるようになった[17]。
一方ブレーズ・パスカル、ピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた[18]。また、カール・フリードリヒ・ガウスによる誤差や正規分布についての研究も統計学発展の基礎となった[19]。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた[20]。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナー[21]、エルンスト・エンゲル(エンゲル係数で有名)[22]、ゲオルク・フォン・マイヤーがいる[23]。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。統計学の業績について高く評価され1858年には王立統計学会初の女性会員となった[24]。
同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から生物進化の研究に着手した。これは当時「
20世紀に入ると、ウィリアム・ゴセット[28]、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る[29]。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって無作為抽出法の採用など現代の数理統計学の理論体系が構築され[30]、これは社会科学、医学、工学、オペレーションズ・リサーチなどの様々な分野へ応用されることとなった。
こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。
これに呼応して、在来の客観確率を前提に置く統計学に対し、それまでごく少数によって提唱されていたにすぎなかった主観確率を中心に据えたベイズ統計学が1954年にレオナルド・サベージの『統計学の基礎』によって復活した[31]。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能(=ベイズ推定)が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。
計量経済学、統計力学[32][33][34]、バイオテクノロジー、疫学、機械学習、データマイニング、制御理論、インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。スパムメールフィルタや日本語入力システムの入力予測など身近な応用も数多い。20世紀末にはマルコフ連鎖モンテカルロ法など理論面で様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開は、いずれも計算環境の進歩と不可分である[35]。
他分野との関係
確率論
確率論は、中等教育で「確率・統計」と一括りに呼ばれていたように[36][37]、統計学と非常に深いかかわりがある[38][39][40][41][42][43][44]。推計統計学ではデータ(標本)が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく(古典的な)確率であり、母集団はある確率分布に従っていると数学的に表現できる。標本に基づいた母集団確率分布のパラメータ推定(統計的推論)は推計統計学の花形であり、これらは確率論の用語や理論を用いて表現・研究されている。