平均値との関係
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/13 09:12 UTC 版)
中央値は平均値と同様に中間の値を知る目的で使うが、外れ値が存在する場合などは、平均値よりも中央値の方が適している。これは、例えば年収からなるデータの場合を考えてみると分かりやすい。 貧富の差が激しい国では、一部の富裕層が平均年収をつり上げてしまっているため、平均年収は「普通の人」の年収よりもずっと高い値になってしまう。このため平均年収は「普通の人」の生活水準を推し測るには向かない。例えば、人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となってしまい、実態と大きくかけ離れることになる。 一方中央値は、年収が低い順(高い順)に国民を並べたときに丁度真ん中になる人の年収を表しているため、一部の富裕層の年収は中央値に影響せず、中央値は「普通の人」の生活水準により近くなる。 実際、例えば億万長者が小さな町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はほとんど変わらない。大金持ちが一人引っ越して来ただけで、「普通の人」の生活水準が変化するとはいえず、中央値の方がより直感に近いことが分かる。 逆に平均値と比較して、データ全体の変化を表すのには向いていない。中央の値と順番が変わらない限り、その前後が大きく変化しても中央値は変わらないからである。
※この「平均値との関係」の解説は、「中央値」の解説の一部です。
「平均値との関係」を含む「中央値」の記事については、「中央値」の概要を参照ください。
平均値との関係(数式的なもの)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/13 09:12 UTC 版)
「中央値」の記事における「平均値との関係(数式的なもの)」の解説
分布が対称であるデータに対しては、中央値は平均値に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなることもある。 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。平均値は、測定ミスなどによって発生する外れ値(他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、刈り込み、ロバスト統計などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。 たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。 ± ∞ {\displaystyle \pm \infty } を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる) 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する) 中央値を求めるには、線形汎用選択アルゴリズムを使うと O ( n ) {\displaystyle \mathrm {O} (n)} の計算量で求められる(平均値も O ( n ) {\displaystyle \mathrm {O} (n)} )。逐次データが得られる場合は全てのデータを保持しておく必要があり、 O ( n ) {\displaystyle \mathrm {O} (n)} のメモリを要する(平均値は O ( 1 ) {\displaystyle \mathrm {O} (1)} )。 代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3四分位点と第1四分位点の差である四分位範囲(英: interquartile range, IQR)で表すことが多い。
※この「平均値との関係(数式的なもの)」の解説は、「中央値」の解説の一部です。
「平均値との関係(数式的なもの)」を含む「中央値」の記事については、「中央値」の概要を参照ください。
- 平均値との関係のページへのリンク