標本誤差
標本誤差
母集団母数(パラメーター) 1は母集団を特徴づける数値である。統計的推定 2とはそのような母数を標本から推定する手続をいう。このような推定値は標本誤差 3の影響を受け、標本誤差の大きさの程度は一般的に標準誤差 4によって与えられる。時に信頼区間 5という用語が用いられ、あらかじめ定められた確率の下で推定値がその中に落ちると期待される範囲を示す。二つの数値の差が偶然によって生ずる確率が、有意水準 7と呼ばれる所与の数値より小さい場合、その差は有意差 6と呼ばれる。たとえば、偶然によって生じる確率が0.05未満の場合、その差は5%水準で有意であるという。標本誤差に加えて、観測誤差 8あるいは回答誤差 8も推定値に影響を与える。これらの誤差には通常、面接誤差 9が含まれるが、それは基礎データが収集される際に面接調査員によってもたらされる系統的誤差である。
標準誤差
(標本誤差 から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/09 15:13 UTC 版)
![]() |
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月)
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
標準誤差(ひょうじゅんごさ、英: standard error; SE)は、母集団からある数の標本を選ぶとき、選ぶ組み合わせに依って統計量がどの程度ばらつくかを、全ての組み合わせについての標準偏差で表したものをいう。
統計量を指定せずに単に「標準誤差」と言った場合、標本平均の標準誤差(英: standard error of the mean; SEM)のことを普通は指す。以下ではこれについて述べる。
定義
標準偏差σ、要素数Nの母集団からn個の標本を抽出するとき、標準誤差は次の式により推定される。
標本誤差
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/14 23:47 UTC 版)
標本調査で必ず生まれる誤差を、「標本誤差(サンプリング・エラー)」と言う。 まず、標本誤差をどの程度まで許容できるかを考える。許容できる誤差の範囲を、「許容誤差」という。統計学的には、許容誤差は5%が目安となる。次に、どの程度の割合で、標本誤差が許容誤差の範囲内に収まるようにすればいいかを考える。これを、「信頼水準」または「信頼係数」という。統計学的には、信頼水準は95%が目安となる。総務省も95%を基準としている。これはつまり、世論調査において、20回調査をしたら19回は標本誤差が許容誤差の範囲に収まればよいというのが、日本国(内閣府)の基準ということである。 そのような標本数を算出するための公式は、「 n = λ 2 p ( 1 − p ) d 2 {\displaystyle n={\lambda }^{2}{\tfrac {p(1-p)}{d^{2}}}} 」(n:標本数、p:回答比率、d:標本誤差、λ:信頼水準)である。無限に数が多い母集団(「無限母集団」という。日本国における実際の母集団の数は約1億2000万)を対象に、信頼水準を95%として、標本誤差を5%以下とするために必要な人数を、「λ=1.96(このとき信頼水準95%になる。)、p=50%(この数は世論調査を実際に行うまで不明だが、仮に50%に設定するとnが最大となる上に計算が簡単になるので、普通は50%に設定される)、d=5%(標本誤差5%)」として、この公式に当てはめて算出すると、「n≒384.16」、つまり「384人」と算出できる。つまり、世論調査の標本数が384人以上なら、その調査の正確性は統計学的に担保されているというのが日本国の考えである(なお、実際には計算を簡単にするためにλ=2が用いられることが多く、このときの信頼水準は95.4%になり、必要な標本数は400人となる)。標本のサイズが大きいほど誤差が小さく、1066人以上の標本数だと、標本誤差は±3%以下になる。9604人を超える標本調査だと誤差を±1%以下にまで抑えられるが、標本数を2倍に増やしても誤差は 1 / 2 {\displaystyle 1/{\sqrt {2}}} にしか減らず、標本のサイズが大きいほどコストも大きくなるので、世論調査にかかるコストと、誤差のバランスを考慮して、日本の世論調査ではだいたい数百人-数千人くらいの標本調査で妥協している。 統計学的には、標本数が少なくても、ある程度信頼できる数字が得られる。例えば、許容誤差を10%まで緩めれば、信頼度95%で仮に無限母集団でも、標本数がたった96人でOKである。つまり統計学的には、全くバイアスがないと仮定した場合、96人に世論調査を行うだけで、信頼度95%で±10%の正確さで1億3000万人の「民意」を見ることができる。 選挙の結果として見られる「真の支持率」が、公式から導き出せる誤差の範囲だった場合、世論調査は統計学的に見て正確だったということが言えるし、この範囲ではなかった場合、標本誤差の範囲内となる信頼区間から5%の確率で外れてしまったか(「有意水準」または「危険率」と言い、信頼度95%の場合、5%の確率でこの危険がある。仮に信頼度99.99%でも危険率がゼロではない限りは危険であり、「当選確実」が出てバンザイをした後に落選してしまうことがまれにある)、もしくは統計学的な誤差とは別に、どこかにバイアスがあったということが言える。 世論調査の正確性をゆがめる「バイアス」に関しては後述する。ちなみにこの「バイアス」に関しては、どれだけ標本数が大きくても、たとえ全数調査だったとしても、調査の正確性をゆがめてしまう。
※この「標本誤差」の解説は、「世論調査」の解説の一部です。
「標本誤差」を含む「世論調査」の記事については、「世論調査」の概要を参照ください。
- 標本誤差のページへのリンク