そうか‐ちゅうしゅつほう〔ソウクワチウシユツハフ〕【層化抽出法】
層化抽出法
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/03/02 01:11 UTC 版)
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2023年12月) |
層化抽出法(そうかちゅうしゅつほう、英: stratified sampling)とは、統計学における母集団からの標本調査の手法のひとつ。
概要
部分母集団が互いに大きく異なるとき、各部分母集団(層)毎にサンプルを抽出することに意味がある。層化(Stratification)とは、母集団を相対的に同質なグループに分けるプロセスであり、サンプリングの前に行われる。層は相互排他的である。すなわち母集団の要素はいずれか1つの層にのみ属する。層は集合的網羅的でもある。すなわち各要素は必ずいずれかの層に属する。各層からの抽出は無作為あるいは機械的に行われる。層化抽出法はしばしば標本誤差を減らし、サンプルの質を高める。単純な無作為抽出で得られる算術平均よりも変動の少ない加重平均を生成することができる。
以下のような戦略がある:
- 比例割当: 母集団と各層の比率と比例する抽出数を各層に割り当てる。ある母集団で男性が60%、女性が40%だったとき、この比率に合わせて男性と女性の抽出数を決定する。
- 最適割当: 母集団の各層をある変数の標準偏差で分ける。そして、分散の大きい層の抽出数を多くする。
層化抽出法を使った実例としてアメリカの政治世論調査がある。アメリカ合衆国の市民の多様性を反映するような調査結果を得るため、人種や宗教など様々な少数グループを含むようサンプルが抽出される必要がある。そのため層化抽出法による調査は単純無作為抽出法や系統的抽出法よりも民意を反映していると言われる。
同様に、ある地域の人口密度のばらつきが大きい場合、層化抽出法によって地域ごとの同等の正確さで推定することを保証できる。例えば、オンタリオ州は南北で人口密度に大きな差がある(南部が高密度)。このため単純に無作為抽出すると北部からは意味のある標本数が得られない可能性がある。最適割当による層化抽出法を使えば、北部の抽出率を高くするなどの手法が採れるだろう。
長所
- 重要な部分母集団に集中し、無関係なものを無視できる。
- 推定の正確さを高めることができる。
- 効率が良い。
- 各層の仮説検定の検定力を同等にするために、サイズの異なる各層から同数のサンプルを抽出するなどの手法もある。
短所
- 適切な層化変数(層を分ける基準)を選びづらい場合がある。
- サブグループ内が同質といえない場合、有益でない。
- コストがかかる可能性がある。
- 母集団に関する正確な情報を必要とし、さもなくば偏りを生じる。
各層のサンプルサイズの選択
一般に各層のサンプルサイズは層のサイズに比例して設定される。これを比例割当と呼ぶ。ある会社の従業員が以下のような構成になっていたとしよう。
- 男性正社員: 90人
- 男性パート従業員: 18人
- 女性正社員: 9人
- 女性パート従業員: 63人
- 合計: 180人
ここで、上記の分類を層とし、40人の従業員のサンプルをとるよう依頼されたとする。
まず、全従業員数(180)から各層のパーセンテージを計算する。
- 男性正社員比率 = ( 90 / 180 ) x 100 = 0.5 x 100 = 50%
- 男性パート社員比率 = ( 18 / 180 ) x100 = 0.1 x 100 = 10%
- 女性正社員比率 = (9 / 180 ) x 100 = 0.05 x 100 = 5%
- 女性パート社員比率 = (63/180)x100 = 0.35 x 100 = 35%
これにより40人のサンプルの各層への割り当ては
- 50% は男性正社員
- 10% は男性パート社員
- 5% は女性正社員
- 35% は女性パート社員
となる。従って、以下のような人数となる。
- 40人の 50% は 20人
- 40人の 10% は 4人
- 40人の 5% は 2人
- 40人の 35% は 14人
層によっては他よりも変動性が大きい場合がある。そのような層からは多くのサンプルを抽出すべきである。
関連項目
層化抽出法
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/12 07:38 UTC 版)
母集団をあらかじめいくつかのグループ(層)に分け、それぞれのグループで単純無作為抽出を行う「層化」と呼ばれる手法を用いる。 例えば世論調査では、都道府県別・自治体別などに分けてサンプリングする層化抽出法が行われている。母集団の要素数が約1億2000万のデータを「抽出枠」として使って単純無作為抽出するよりも、層化した方が楽だし、都道府県別の世論も見られるメリットがある。ただし、携帯電話のRDD方式の世論調査だと市外局番が使えないので、コンピュータで制作した数億の抽出枠から機械の力で単純無作為抽出せざるをえない。このように、「抽出枠」の情報に加えて「層化」を行うための情報がないと母集団を層化できないデメリットがある。 各層で分布が大きく異なる場合に効果を発揮する。例えば、東京都(人口が約1300万人)から鳥取県(人口が約60万人、東京23区全体どころか練馬区や世田谷区よりも人口が少ない)まで、人口比が著しく異なる都道府県からなる日本列島からまんべんなく人間を無作為抽出する場合に、単純無作為抽出だと人口が少なくてサンプリングされない地方民が出る場合があるが、都道府県ごとに層化すると、そういうことがない。都道府県別に分けてサンプリングしても、全ての日本国民でサンプリングされる確率が同じなら、無作為抽出である。 詳しく言うと、比例配分法(比例割当法)と最適配分法(最適割当法)がある。
※この「層化抽出法」の解説は、「無作為抽出」の解説の一部です。
「層化抽出法」を含む「無作為抽出」の記事については、「無作為抽出」の概要を参照ください。
「層化抽出法」の例文・使い方・用例・文例
層化抽出法と同じ種類の言葉
- 層化抽出法のページへのリンク