statistics
「statistics」とは、統計・統計学を意味する英語表現である。
「statistics」とは・「statistics」の意味
「statistics」とは、主に「統計」「統計学」「統計量」「統計値」「統計資料」などを意味する英語表現。「統計学」という意味では不可算名詞であり、「統計データ」「統計値」の意味では可算名詞「statistic」の複数形である。派生語に形容詞「Statistical(統計上の)」がある。「statistics」の覚え方
「statistics」は、「state(国)」「-ist(~する人)」「-ics(学問)」から成る単語である。「state」から発生した単語には「estate(地所)」がある。「-ist」の付く単語の一例は「optimist(楽観主義者)」「pianist(ピアノ演奏者)」。「-ics」の付く単語には、「economics(経済学)」「optics(光学)」などがある。このように、形式の似た単語をまとめて把握すると、「statistics」も覚えやすくなる。
「statistics」の発音・読み方
「statistics」の発音記号は、「stəˈtɪs·tɪks」であり、中盤の「-tis-」にアクセントが置かれる。カタカナで表記する場合、「スタァティスティックス」のような音になる。「statistics」の語源・由来
印欧語根は「sta-(立つ、作る、しっかりする)」。英語の「statistics」は、ラテン語の「statisquum(国家問題に関する講義)」、イタリア語の「statisquar(国家事業に長けたもの)」から来る造語と考えられている。ドイツから英語圏へは「収集・分類された数値データ」の意味で紹介された。「statistics」と「statistic」の違い
「statistics」は「statistic(統計データ)」の複数形である。「statistics」が単数形で用いられる場合は「統計学」という意味になる。また「statistic」は、名詞だけでなく形容詞としても用いられる。単数形の「統計データ」を使った例文には、「This statistic can be rearranged using sociodemographic factors.(この統計は、社会人口学的な要因を用いて並べ替えることができる)」などがある。「statistics」を含む英熟語・英語表現
「statistics」の単数扱いとは
「statistics」は単数形・複数形の両方で用いられる単語である。単数扱いでは「統計学」という意味。複数扱いの場合は、可算名詞「statistic(統計値、統計データ)」の複数形として用いられる。「Statistics is too hard for me.(統計学は私に難しすぎる)」の文では、単数形のisが用いられており、「統計学」の意味と取れる。「The statistics are shown in Figure 1.(その統計は図1に示されている)」の文は、複数形のareが使われており、「統計データ」の意味である。
「statistics」の略とは
「statistics」の略称は、「stat.」という表記である。イギリス英語では「stats.」の方が好まれる。統計における「Amount of statistics.(統計量)」のことを略称で「stat.」と表記することもある。
「statistics」に関連する用語の解説
「statistical」とは
「statistical」とは「統計的な」を意味する形容詞である。「It is the statistical representation of the likelihood of a unit to fail.(これはユニットが故障する可能性を統計的に表現したものである)」のように用いられる。
「statistics data」とは
「statistics data」とは、「統計的資料」「統計データ」を表す英語表現である。「Using the statistics data, a multivariable analysis was derived by extracting the explanatory variables.(統計データを用いて、説明変数を抽出し、多変量解析を導き出した)」のような表現がある。
「statistics」の使い方・例文
「統計が示す」「統計が語る」という言い方で、次のような文章がある。「This is consistent with many other trends in health statistics which show that the most deprived are frequently the most adversely affected.(これは、最も恵まれない人々が最も悪影響を受けやすいことを示す、健康統計の他の多くの傾向と一致している)」「There is much cause for positivity in what statistics are currently telling us about the pandemic.(現在、パンデミックについて統計が示していることについて、前向きにとらえることができる)」「統計での上昇」という分析の表現には、以下のようなものがある。「The rise in the statistics, which cover the 12 months to the end of June, is the largest annual rise in a decade and continues a recent trend of crime increases.(6月末までの12カ月間を対象とする統計では、年間増加率が過去10年で最大となり、最近の犯罪増加傾向を引き継いでいる)」
統計機関という表現を使うと、次のような例文がある。「The national statistics body reported Wednesday that the fertility rate, or the average number of children expected per woman, fell to 0.78 in 2022.(国の統計機関が水曜日に発表したところによると、出生率 、つまり女性一人あたりに期待される子供の平均数は2022年に0.78に低下した)」
「統計を取る」「統計を収集する」という言い方を使うと、以下のような表現がある。「No attempt was made in the census enumerations of 1790 and 1800 to obtain statistics of manufactures.(1790年と1800年の国勢調査では、製造業の統計を取ろうとはしていない)」「From 1850 to 1900 fairly full industrial statistics were gathered as a part of each decennial census.(1850年から1900年までは、10年ごとの国勢調査の一環として、かなり詳細な産業統計が収集された)」
スタティスティックス【statistics】
統計関数
導入
統計用の拡張モジュールです。統計計算のために有用な関数を、 何十個も含んでいます。この拡張モジュールは、B. Brown & J. Lavato の DCDFLIB (Library of C routines for Cumulative Distributions Functions, Inverses, and Other parameters) および Barry Brown, James Lavato & Kathy Russell の RANDLIB という 2 つの科学ライブラリのラッパーです。 CD 関数および PD 関数を含みます。インストール手順
この » PECL 拡張 モジュールは PHP にバンドルされていません。この PECL 拡張モジュールをインストールする方法は、 マニュアルの PECL 拡張モジュールのインストール という章にあります。 新規リリース・ダウンロード・ソースファイル・管理者情報・CHANGELOG といった関連する情報については、次の場所にあります。 » http://pecl.php.net/package/stats.
この PECL 拡張モジュール の DLL を » PHP ダウンロード ページ または » http://snaps.php.net/ からダウンロードできます。
要件
外部ライブラリは不要です。使用するライブラリは、 この拡張モジュールにバンドルされています。目次
- stats_absolute_deviation — 値の配列の絶対偏差を返す
- stats_cdf_beta — ベータ分布用の CDF 関数。ベータ分布のパラメータのいずれかを、 その他のパラメータの値から計算する
- stats_cdf_binomial — 二項分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_cauchy — 未ドキュメント化
- stats_cdf_chisquare — カイ二乗分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_exponential — 未ドキュメント化
- stats_cdf_f — F 分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_gamma — ガンマ分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_laplace — 未ドキュメント化
- stats_cdf_logistic — 未ドキュメント化
- stats_cdf_negative_binomial — 負の二項分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_noncentral_chisquare — 非心カイ二乗分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_noncentral_f — 非心 F 分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_poisson — ポアソン分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_t — T 分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_cdf_uniform — 未ドキュメント化
- stats_cdf_weibull — 未ドキュメント化
- stats_covariance — ふたつのデータセットの共分散を計算する
- stats_den_uniform — 未ドキュメント化
- stats_dens_beta — 未ドキュメント化
- stats_dens_cauchy — 未ドキュメント化
- stats_dens_chisquare — 未ドキュメント化
- stats_dens_exponential — 未ドキュメント化
- stats_dens_f
- stats_dens_gamma — 未ドキュメント化
- stats_dens_laplace — 未ドキュメント化
- stats_dens_logistic — 未ドキュメント化
- stats_dens_negative_binomial — 未ドキュメント化
- stats_dens_normal — 未ドキュメント化
- stats_dens_pmf_binomial — 未ドキュメント化
- stats_dens_pmf_hypergeometric
- stats_dens_pmf_poisson — 未ドキュメント化
- stats_dens_t — 未ドキュメント化
- stats_dens_weibull — 未ドキュメント化
- stats_harmonic_mean — 値の配列の調和平均を返す
- stats_kurtosis — 配列内のデータの尖度を計算する
- stats_rand_gen_beta — 無作為な値を生成する
- stats_rand_gen_chisquare — 自由度 "df" の乱数で表されるカイ二乗分布から、無作為な値を返す
- stats_rand_gen_exponential — 平均値 "av" の指数分布から、無作為な値を返す
- stats_rand_gen_f — 分子の自由度が "dfn"、分母の自由度が "dfd" の F (分散比) 分布から、無作為な値を返す。カイ二乗の変量の比を直接生成する
- stats_rand_gen_funiform — low (それ自身は含まない) と high (それ自身は含まない) の間の一様な浮動小数点数値を生成する
- stats_rand_gen_gamma — ガンマ分布から無作為な値を生成する
- stats_rand_gen_ibinomial_negative — 負の二項分布から無作為な値を生成する。引数: n - 無作為な値を生成するために行う負の二項分布の試行回数 (n > 0)、p - 事象の発生する確率 (0 < p < 1))
- stats_rand_gen_ibinomial — 二項分布から無作為な値を生成する。二項分布の試行回数を "n" (n >= 0)、各試行で事象の発生する確率を "pp" ([0;1]) とし、BTPE アルゴリズムを使用する
- stats_rand_gen_int — 1 から 2147483562 までの間の無作為な整数値を生成する
- stats_rand_gen_ipoisson — 平均 "mu" (mu >= 0.0) のポアソン分布から無作為な値を生成する
- stats_rand_gen_iuniform — LOW (それ自身を含む) と HIGH (それ自身を含む) の間の一様分布から整数値を生成する
- stats_rand_gen_noncenral_chisquare — 自由度 "df"、非心母数 "xnonc" の非心カイ二乗分布から無作為な値を生成する。 d は >= 1.0、xnonc は >= 0.0 でなければならない
- stats_rand_gen_noncentral_f — 分子の自由度が "dfn"、分母の自由度が "dfd"、非心母数が "xnonc" の非心 F (分散比) 分布から、無作為な値を返す。 非心カイ二乗変量の分子とカイ二乗変量の分母の比を直接生成する
- stats_rand_gen_noncentral_t — 非心 T 分布から無作為な値を生成する
- stats_rand_gen_normal — mean、av および標準偏差 sd (sd >= 0) によって表される正規分布から無作為な値を生成する。 Method : Renames SNORM from TOMS as slightly modified by BWB to use RANF instead of SUNIF.
- stats_rand_gen_t — T 分布から無作為な値を生成する
- stats_rand_get_seeds — 未ドキュメント化
- stats_rand_phrase_to_seeds — 乱数ジェネレータ用のふたつのシードを生成する
- stats_rand_ranf — 0 から 1 (区間の両端は含まない) までの一様分布から、 現在のジェネレータを使用して無作為な浮動小数点数値を返す
- stats_rand_setall — 未ドキュメント化
- stats_skew — 配列内のデータの歪度を計算する
- stats_standard_deviation — 標準偏差を返す
- stats_stat_binomial_coef — 未ドキュメント化
- stats_stat_correlation — 未ドキュメント化
- stats_stat_gennch — 未ドキュメント化
- stats_stat_independent_t — 未ドキュメント化
- stats_stat_innerproduct
- stats_stat_noncentral_t — 非心 t 分布のパラメータのいずれかを、その他のパラメータの値から計算する
- stats_stat_paired_t — 未ドキュメント化
- stats_stat_percentile — 未ドキュメント化
- stats_stat_powersum — 未ドキュメント化
- stats_variance — 母分散を返す
統計学
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2021年3月) |


統計学(とうけいがく、英: statistics)とは、統計に関する研究を行う学問である。経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供するため、幅広い分野で応用されている[注釈 1]。
物理学・経済学[2][3]・社会学・心理学[4]・言語学といった人文科学・社会科学・自然科学(基礎科学)から、工学・医学[5]・薬学といった応用科学まで、実証分析を伴う科学の分野において必須の学問となっている。また、科学哲学における重要なトピックの一つでもある。
語源
英語で統計または統計学を「
なお、統計学という語は、ドイツの政治学者ゴットフリート・アッヘンヴァルが1749年に『ヨーロッパ諸国国家学綱要』の中で、それまでドイツ語で「Staatenkunde」(「国情論」の意味)と呼ばれていた[6]学問に「
日本語の「統計」という語の起源は明確にはなっていないが、幕末から明治初年にかけての洋学者である柳川春三が初めて現在の意味でこの語を使用したと考えられており、明治2年(1869年)には彼の編纂した冊子においてこの語と用法が使用されたとの記述がある。その後、明治4年(1871年)には大蔵省に「統計司」(後に「統計寮」に改組)が置かれ、次第にこの語が広まっていった[8]。
分類
記述統計学と推計統計学
統計学は「記述統計学 (descriptive statistics) 」 と「推計統計学(inferential statistics、推測統計学とも) 」に分類できる[9]。記述統計学はデータの特徴を記述する学問であり、推計統計学は標本から母集団を推計する学問である。
記述統計学は、データ1つがもつ特徴を記述・説明することに着目した分野である[9]。例えば小学生99人の身長データがあったとする。データの値は個別の小学生のものであり、100人全体の特徴は値を個別に見ただけでは分からない。ここでデータの値を身長順に並べ、50番目の値を見れば「この小学生99人の"普通"の身長はだいたい110 cmである」と記述できる。50番目の値は中央値という。このように、データ全体の特徴を要約・記述することが記述統計学の大きな目的・方法論である。
推計統計学は、母集団からの標本化を前提とし、標本から母集団を推測する分野である[9]。例えば世界の小学生の身長特性を知りたいとする。全世界の小学生の身長を計測し記述統計学によって中央値や平均値を記述すれば、目的である世界の小学生の身長特性は解明できる。しかしその計測は著しく困難(事実上不可能)である。そこで推計統計学では、まず小学生100人の身長データ(標本と呼ぶ)を集める。そして標本は全世界の小学生という母集団からランダムに選ばれたものだと考える。ランダムに選ばれた100人の身長中央値(標本の中央値)は必ずしも世界小学生身長中央値(母集団の中央値)と一致しないと考えられるが、"似た"数値にはなると期待される。すなわち標本から母集団の特性を推測することができる。この、標本から母集団を推測する方法論に関する分野が推計統計学である。
このように、記述統計学はデータ(推計統計学でいう標本)の説明・記述を行い、推計統計学は母集団(の記述)の推測をおこなう。両分野の違いは、記述統計学では目の前にあるデータがすべて(母集団という考え方はない)のに対し、推計統計学ではむしろ目の前のデータは(真なる)母集団から今回たまたま選ばれた標本だと考える点にある。一方で、推計統計学では標本の記述統計から母集団の統計量を推測するように、この2分野は非常に密接に絡んでおり全く別の分野と考えることは不適切である。
統計的手法
![]() | この節は検証可能な参考文献や出典が全く示されていないか、不十分です。(2011年11月) |
- 実験計画法
- データ収集の規模や対象、割付方法をコントロールし、より公正で評価可能なデータが収集できるよう検討すること。統計の世界には「ゴミのようなデータを使っていくら解析しても出てくる結果はゴミばかりだ」[10]という格言がある[11]。これはデータ収集の前にその方法を十分に検討する必要があることを強調したものである。
これらは、意思決定に応用されている。
歴史
統計学の源流は国家または社会全体における人口あるいは経済に関する調査にある[12]。このことは、東西を問わず古代から行われている。
学問としては、17世紀にはイギリスでウィリアム・ペティの『政治算術』(1790年)などが著述され、その後の社会統計学に繋がる流れが始まった。彼の提唱した政治算術そのものは18世紀に衰退するものの、ペティは統計学の父とも呼ばれる[13]。また同時期、ペティの友人であるジョン・グラント(英語: John Graunt)が『死亡表に関する自然的および政治的諸観察』(1662年)を表し、人口統計学の源流となった[14]。この死亡統計の研究はエドモンド・ハレーなども行うようになった[15]。これらの影響の基、18世紀にはドイツのヨハン・ペーター・ジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった[16]。
ドイツでは17世紀からヘルマン・コンリングなどによってヨーロッパ各国の国状の比較研究が盛んになり、1749年にゴットフリート・アッヘンヴァルがこれにドイツ語で「
19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、「Statistik」の語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃には、1748年のスウェーデンを皮切りに国勢調査も行われるようになり、1790年には下院の議員数算定のためにアメリカがこれに続き、イギリス、フランスなど西ヨーロッパ諸国においても1830年頃までには国勢調査が行われるようになった[17]。
一方ブレーズ・パスカル、ピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた[18]。また、カール・フリードリヒ・ガウスによる誤差や正規分布についての研究も統計学発展の基礎となった[19]。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた[20]。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナー[21]、エルンスト・エンゲル(エンゲル係数で有名)[22]、ゲオルク・フォン・マイヤーがいる[23]。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。統計学の業績について高く評価され1858年には王立統計学会初の女性会員となった[24]。
同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から生物進化の研究に着手した。これは当時「
20世紀に入ると、ウィリアム・ゴセット[28]、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る[29]。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって無作為抽出法の採用など現代の数理統計学の理論体系が構築され[30]、これは社会科学、医学、工学、オペレーションズ・リサーチなどの様々な分野へ応用されることとなった。
こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。
これに呼応して、在来の客観確率を前提に置く統計学に対し、それまでごく少数によって提唱されていたにすぎなかった主観確率を中心に据えたベイズ統計学が1954年にレオナルド・サベージの『統計学の基礎』によって復活した[31]。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能(=ベイズ推定)が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。
計量経済学、統計力学[32][33][34]、バイオテクノロジー、疫学、機械学習、データマイニング、制御理論、インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。スパムメールフィルタや日本語入力システムの入力予測など身近な応用も数多い。20世紀末にはマルコフ連鎖モンテカルロ法など理論面で様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開は、いずれも計算環境の進歩と不可分である[35]。
他分野との関係
確率論
確率論は、中等教育で「確率・統計」と一括りに呼ばれていたように[36][37]、統計学と非常に深いかかわりがある[38][39][40][41][42][43][44]。推計統計学ではデータ(標本)が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく(古典的な)確率であり、母集団はある確率分布に従っていると数学的に表現できる。標本に基づいた母集団確率分布のパラメータ推定(統計的推論)は推計統計学の花形であり、これらは確率論の用語や理論を用いて表現・研究されている。