無作為抽出
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/12 07:38 UTC 版)
ナビゲーションに移動 検索に移動この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。2008年1月) ( |
概要
その名の通り、ある集団から要素を抽出するのに、作為的な手順を使わないことが特徴である。そのため、無作為抽出法によるサンプリングを行うと、集団の全ての要素が同じ確率で抽出されることになる。
標本調査における標本の抽出法には、全体から無作為に抽出する「無作為抽出」の他に、全体から作為的に抽出する「有意抽出」がある。例えばクラスの掃除当番を選ぶ場合、「出席簿からくじで無作為に抽出した出席番号の生徒を掃除当番に任命する」のが無作為抽出で、「先生が気に入った奴を掃除当番に任命する」のが有意抽出である。無作為抽出の方が客観的な公平性が担保でき、「段ボールで自作したルーレット」や「印刷に失敗したプリント用紙の裏紙で自作した抽選箱」など割と簡単に道具を作れるので、民間でも割とカジュアルに行われている。仮に「無作為抽出」と称していても、客観的な無作為性が担保できない場合、例えば「出席簿でたまたま目についた奴を何名か無作為に掃除当番に任命する」などは、先生が気に入った奴を有意抽出している可能性が客観的に排除できないので、無作為抽出ではない。
統計調査にも使われる。「割りばしで自作したので特定の番号の物がいつもささくれで引っかかる抽選機」などの精度の低い乱数発生器を使用したことによる無作為性(ランダムネス)の低さは、「掃除当番を選ぶ」などの場合は単に「クジ運が悪い」として我慢してもらえば問題にならないものの(それでも限度があり、あまり悪いと有意抽出と同様にクジ運ではなく先生が恨まれることになる)、統計調査などの学術的調査では標本誤差の元となるので、問題となる。「有意抽出」や、「無作為性の低い無作為抽出」では、正確な統計調査にならない。なので、統計調査として行われる標本調査では、有意抽出ではなく、かならず無作為抽出が使われる。また、人力で調査を行うことによるコストや労力との兼ね合いを取りながら、なるべく無作為性が高くなるように様々な手法が工夫されている。
工業製品の「抜き取り検査」でも、無作為性が低いと不良品の率が正確に解らず、自社検査にパスしたのに出荷先の検査で段ボールの底の方から不良品が大量に見つかって会社の信用がピンチになるので、たとえコストがかかっても無作為性を確保することは重要である。特に、倉庫や段ボールの奥の方に積まれたものを検査するのがマンパワー的に難しく、完全な無作為抽出をせずに上の方だけ適当に検査する事があるので、製品全体の無作為抽出が楽にできるような工夫が必要である。
カードゲームなどのテーブルゲームでも、無作為抽出であることは重要である。ゲームで無作為抽出のように見せかけて自分の欲しい手札を引く「イカサマ」と言うテクニックがある。アナログのゲームにおける無作為抽出は、コンピューターゲームとは違ってコンピューターを使った無作為抽出を行わず、全て人力で行うことが特徴なので、その分イカサマがしやすいが、絶対に行ってはいけない。
手品でも、タネも仕掛けもない無作為抽出であることが強調されるが、実はタネも仕掛けも仕込まれているので無作為抽出ではない。
無作為抽出の手法
乱数生成器(ランダマイザー)
直接、ある集団の全ての要素を無作為に配列(ランダマイズ)し、そこから任意の要素を抽出する方法と、まず、ある集団の全ての要素で構成される任意の配列のリスト(標本抽出枠)を作り、標本抽出枠のそれぞれの要素に連番を振り、乱数生成器(ランダマイザー)で無作為な乱数を生成し、出て来た乱数と同じ番号が振られた要素を標本として標本抽出枠から抽出する方法がある。
例えばトランプや抽選機では、ランダマイズされたものから任意のカードやボールを引くことによって無作為抽出が行われる。トランプではシャッフル、抽選機では回転(俗にガラガラと言う)によってランダマイズが行われる。一方、統計調査などで、人間を無作為抽出する場合は、複数人の人間をまとめてシャッフルできる巨大生物でもない限り、まず調査対象となったある集団(母集団)の全ての人間がリストアップされて連番が降られた標本抽出枠を作って、そこから乱数発生器で乱数を生成して要素を無作為に選んで抽出する方法が使われる。
コンピューターやサイコロなど、要素を無作為に配列したり乱数を発生させたりする装置のことを乱数生成器(ランダマイザー)と言う。カードやボールを人間が自分の手で直接ランダマイズして抽出する場合もあるが、カードやボールをランダマイズせずにあくまで標本抽出枠として使い、サイコロやルーレットなどのランダマイザーで生成した数字をもとに抽出することも多い。テーブルトークRPGやボードゲームでプレーヤーや次のアクションなどを無作為抽出する場合は、ランダマイザーとして「多面ダイス」と言う特殊なサイコロが使われることがある。身近なランダマイザーとしてはコイントスがあり、ボードゲームではかなり使われるが、「0(表)」と「1(裏)」しか生成できないので、標本調査や抜き取り検査では普通は使わない。標本調査や抜き取り検査での無作為抽出におけるランダマイズはコンピューターを使うのが普通だが、コンピューターを使わないボードゲームではアナログのランダマイザーを使うのが普通である。現代では100円ショップでランダマイザー(ダイス、サイコロ、ルーレットなど)が購入できるほか、ホビーショップでもテーブルトークRPG用の様々な多面ダイスが安価に購入できる。
抽選機や全自動麻雀卓など、「ランダマイザー」が無作為抽出におけるランダマイズから抽出までの一連の作業を同時に行ってくれる場合もある。
非復元抽出と復元抽出
無作為抽出を何度か繰り返して行う場合、既に抽出された要素を母集団から除外して無作為抽出を行う「非復元抽出」と、抽出された要素を除外せずに再び母集団に戻して無作為抽出を行う「復元抽出」がある。
例えばクラスの生徒から掃除当番を決める無作為抽出において「復元抽出」を行った場合、同じ人が何度も繰り返して掃除当番に選ばれる可能性が有り、不都合が生じるので、なるべく「非復元抽出」を行うことが望ましいが、例えばサイコロで無作為抽出を行う場合、既に出た出目が再び出る可能性を原理的に排除できないなど、「非復元抽出」を行うのが難しい場合がある。また、母集団が非常に大きく、抽出される要素数が非常に少ない場合、同じ人が何度も繰り返して抽出される可能性は非常に小さいので、無視されることがあり、「復元抽出」がしばしば使われる。
統計調査における無作為抽出
統計調査として行われる標本調査における無作為抽出とは、ある調査対象の全体(母集団)から調査対象となる標本を無作為に抽出する行為のことである。標本調査の基本となる手法である。統計調査には「標本調査」の他に、母集団の全数を調査する「全数調査」があるが、母集団が大きかった場合は全数を調査すると費用や手間なども大きくなるため、標本調査が行われる。
無作為抽出を行なえば、統計学の見地に照らし合わせて、標本調査の結果から母集団における平均値や比率などが推定出来る。また、母集団からの無作為抽出は、完全に確率的に現れると言えるので、同じく統計学の見地に照らし合わせて、母集団の推定値(=母数)の誤差の大きさを見積もる事が出来る。
推測統計学を創始したとされるR.A.フィッシャーは、イギリスの農事試験所に14年間勤め、この時期に分散分析法を完成させた。差の有無などの検証にも無作為抽出が理論的前提となった様々な手法が使われる。
- 無作為抽出のページへのリンク