誤解を与える統計グラフ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/07/10 06:59 UTC 版)
![]() | この項目「誤解を与える統計グラフ」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:en:Misleading graph 20:39, 18 Nov 2017 (UTC)) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2017年11月) |
統計において、誤解を与える統計グラフ(ごかいをあたえるとうけいグラフ)もしくは歪められたグラフとは、データの事実を曲げて伝えかねないグラフである。これは統計の誤用であり、その結果として誤った結論が導かれる可能性がある。
過度に複雑であったり、拙劣に構築されたグラフは誤解を招くおそれがある。たとえデータの特徴を正確に表示するように構築された時でさえも、グラフは異なる解釈で受け取られうる[1]。
誤解を与えるおそれのあるグラフは、データの適切な解釈を意図的に妨げようとしている場合や、グラフ作成ソフトに慣れていない、データを間違って解釈している、データが正確に伝わっていないなどの偶然的なものによる場合がある。このようなグラフはしばしば虚偽広告に用いられる。ダレル・ハフは誤解を与えるグラフについて最初に論じた著者の一人であり、1954年に出版された『統計でウソをつく法』の発行者である。
データの可視化の分野では、誤解を与えるグラフの作成を防いで情報を提示するためのやり方が述べられている。
誤解を与えるグラフの手法
過剰使用
必要ないグラフを使うことは、不要な混乱・解釈につながる可能性がある[2]。一般的にグラフに必要な説明が多いほど、グラフ自体の数は少なくなる。グラフは必ずしも表より情報を伝えられるとは限らない。
偏見のラベリング
偏見や含みを持つ言葉をグラフのタイトル、軸ラベル、説明文に使うことは、読み手に不適切なプライミング効果を与える可能性がある[3]。
円グラフ
- 大きさの異なる円グラフを比較することは、比較されている領域を正確に読み取ることができないため、誤解を与える可能性がある[4]。
- 認識するのが難しいほど細長い領域は、解釈するのが難しい場合がある。
- サンプル数が少ない場合、円グラフのラベルとしてパーセントを用いるのは、誤解を与える可能性がある[5]。
- 円グラフを3Dにしたり傾斜をつけたりすることで、透視効果の変形により解釈するのが難しくなる[6]。スライスの高さが変化する棒グラフにした円グラフは、読み手を混乱させる恐れがある。
円グラフの三次元化
円グラフの透視技法は、グラフを3Dに見せるために使われる。見た目をきれいにするなどの理由からしばしば使用されるが、3次元にすることはデータを読み取りやすくするわけではない。むしろ3次元に関わる透視効果の変形により解釈するのが難しくなっている。そのグラフの主眼となっているデータを表示するために使われない余計な次元を使うことは、円グラフに限らず一般的なグラフで推奨されないことである[7]。3Dの円グラフにおいては、見えている角度が原因となり、読み手に近いスライスの方が奥にあるスライスよりも大きいように見える[8]。
誤解を与える円グラフ | 正しい円グラフ |
---|---|
![]() |
![]() |
誤解を与える円グラフでは、Item C は少なくとも Item A と同じ大きさに見えるが、実際には半分以下である。 |
アメリカの著名な統計学者エドワード・タフトは、著書 The Visual Display of Quantitative Information において表が円グラフより好まれる理由をこう書いている。
多くの小さなデータセットでは表はグラフよりも優れている。表は物言わぬ円グラフよりも十中八九優れている。円グラフよりも悪いこともあることにはあるが、そのときは読み手は円グラフの内部と間の空間的な乱れの中にある量を比較するよう求められる。低いデータ密度のものが与えられ、視覚的な次元に沿って番号を並べることができない場合は、絶対に円グラフを使用しないでください。[9]。
不適切なスケーリング
絵文字を棒グラフで使用する場合、一様にスケーリングをするべきではない。なぜなら、知覚的に誤解を与えるグラフができてしまうからである[10]。高さや幅ではなく、絵文字の面積によって判断がされてしまう[11]。このスケーリングにより、差が2乗になってしまう。
不適切なスケーリング | 正規 | 比較 |
---|---|---|
![]() |
![]() |
![]() |
不適切なスケールの絵文字の棒グラフでは、Bの画像はAの9倍になってしまっている。 |
正方形 | 円 | 三角形 |
---|---|---|
![]() |
![]() |
![]() |
拡大すると、知覚するサイズが大きくなる。 |
絵文字の不適切なスケーリングの効果は、3次元でも同様であり、この場合、効果が3乗となる[12]。
![]() |
この架空のグラフで、3次元の絵文字の不適切なスケーリングの使用を見てみる。2001年のHome Salesが前年よりも大幅に増えたように見える。さらに度数の軸が与えられていないため、読み手は変化を定量化することができず、誤った変化の認識が残るだけである。2倍の倍率が、大きさとしては22 の4倍に見えるようになる。 |
さらに、不適切にスケーリングされた絵文字は、その物自体の大きさが実際に変化したという考えを読み手に残してしまう[13]。
誤解を与える | 正規 | |
---|---|---|
![]() |
![]() | |
1つの絵で同じ量を表しているとすると、誤解を与えるグラフではバナナが最も大きい面積を占め右へ最も長く伸びているので、バナナが最も多いように見える。 |
対数スケール
対数スケールはデータを表現するのに非常に有効な手段であるが、対数目盛の概念を良く知らない読み手に対して、はっきりとラベル付けされていない状態で使うと、誤解を与えるおそれがある。対数目盛は、対数の底として選んだ数字のいくつによる累乗がデータの値になるのかをプロットする。底としてはe (2.71828...) や10が用いられる。例えばデータの値が10の場合は、対数目盛上は1となり、100000 (10^6)の場合は6となる。VEI (Log scales have common usage in some fields, including the VEI (火山爆発指数) や地震のリヒタースケール、天文学における星の大きさ、酸性・アルカリ性の溶液のpHなどいくつかの分野において、対数目盛は一般的に使われているが、データを目で見て即座に明らかでなくしてしまう効果もある。対数目盛が使われる理由は、グラフの作成者が同じ軸上に大きく異なるスケールのものを表示したいからであり、対数目盛がないと10^3 と 10^9 などの量を比較するのは視覚的な観点からすると実用的ではない。対数グラフだと明確にラベルされていない、もしくは対数目盛の知識を持っていない読み手に提示された対数グラフは、実際には大きく異なる大きさであるデータ値を、同じくらいの値に見えるような表現に一般的にはなってしまう。対数目盛を誤って使用すると大きく異なる値 (10と1万など) が近くに見える (対数目盛では10と1万は1と4になる)。小さな値の場合は負の値になる場合もある。
対数目盛を誤って使用すると、実際には指数関数的、非常に急速に高い値に向かって上昇する法則を持つ関係が線形関係にあるように見えてしまう。ほとんどユーモラスな表現であるが、「太いマーカーで書いた両対数プロットは何でも線形に見える」と言われている。
途中で切ったグラフ
途中で切ったグラフはy軸が0から始まらないグラフである。このグラフは比較的小さな変化を、重大な変化であるという印象に作り替えることができる。
このグラフは小さな違いを説明するのに有用である[14]。途中で切ることにより空間の節約にもなる。マイクロソフトのエクセルなどの商用ソフトウェアは、この例のように値が全て狭い範囲内にある場合、デフォルトにより切り捨てる傾向にある。
途中で切ったグラフ | 正しいグラフ |
---|---|
![]() |
![]() |
どちらのグラフも同じデータを表している。左の途中で切ったグラフではデータに差があるように見られるが、右側の正しい方ではそのような差はほとんど見られない。 |
![]() |
![]() |
y軸の切断を示す方法はいくつかある。 |
軸の変更
元のグラフ | 元よりも小さい最大値 | 元よりも大きい最大値 |
---|---|---|
![]() |
![]() |
![]() |
y軸の最大値を変えると、グラフの見え方に変化が表れる。最大値を大きくすると、変動が小さく、増加が小さく、勾配が小さく見えるようになる。 |
元のグラフ | 幅を半分に、高さを2倍にしたグラフ | 幅を2倍に、高さを半分にしたグラフ |
---|---|---|
![]() |
![]() |
![]() |
グラフの次元の比率を変えると、グラフの見た目が変わる。 |
目盛り無し
グラフの目盛りは差を誇張もしくは最小限にするためによく用いられる[15][16]。
小さい差 | 大きい差 |
---|---|
![]() |
![]() |
y軸の開始値が書かれていないため、グラフが途中で切られているかが不明である。さらに目盛りがないことで、グラフバーが適切にスケーリングされているのかどうか判断することができなくなっている。目盛りがなければ、バーどうしの視覚的な違いを簡単に操作することができる。 |
不安定 | 一定で速い成長 | ゆったりとした成長 |
---|---|---|
![]() |
![]() |
![]() |
3つのグラフは全て同じデータを共有するので、(x, y) のデータの実際の傾きは同じであるが、データのプロットの方法によりグラフの折れ線の角度の見た目を変えることができる。これは各プロットが縦軸にことなる目盛りを持つからである。目盛りが書かれていないと、グラフは誤解を与える恐れがある。 |
不適当な間隔や単位
グラフで使われる間隔や単位は、変化の表現を創出もしくは緩和するために操作されている可能性がある。
データの省略
省略されたデータにより作成されたグラフは、結論の根拠となる情報を取り除いていることになる。
間違ったカテゴリの散布図 | 正しい散布図 |
---|---|
![]() |
![]() |
左の間違ったカテゴリの散布図では、 より線形的でばらつきが少ないように見える。 |
財務報告書においては、前向きな見通しとは関係のない負の結果やデータは排除され、より好都合な視覚的印象を作り出すことができる。
不適切な抽出
他のグラフに基づくグラフは、それらの提示内容を代表するものでなくてはならない。
抽出は例外を検索するときに有効に使うことができる。
誤解を与える、抽出したグラフ | 代表するものを抽出したグラフ |
---|---|
![]() |
![]() |
誤解を与えるグラフからは一貫して高い値をとるという印象を受けるが、文脈を見るとこれらの値は異常値である。 |
第3の次元
情報を含まない余分な第3次元を使うのは、読み手を混乱させる可能性があるので、強く推奨しない。
-
第3次元は読み手を混乱させる可能性がある[6]。
-
同じ値であるが、遠近法により前にある青色の棒の方が、後ろにある緑の棒よりも大きく見える。
-
3次元で拡大縮小する場合、変化の効果は3乗される。
複雑性
グラフは統計データを容易に解釈するために作られるものである。しかし、複雑すぎるグラフはデータを分かりにくくし、解釈するのを難しくする可能性がある。
構成不足
構成が不充分なグラフは、データを識別して解釈するのを難しくする可能性がある。
歪みの測定
グラフが歪められているかどうかを判定し、その歪みを定量化するためのいくつかの方法が開発されている[17][18]。
嘘ファクター
- 誤解を与える統計グラフのページへのリンク