柱状図(ヒストグラム)
研究結果の発表において論点を図解するために、グラフ表示 1ないし図示 1の手法を用いることがある。データは図 2、グラフ 2、統計図表 2、または地図 3によって示される。変数間の関係の図式的表示は、たとえばレキシスの図式(レキシス・ダイアグラム)(437参照)のように、図式(ダイアグラム) 4と呼ばれることが多い。一方の座標軸が対数的に、他方が等間隔に目盛られたグラフは片対数グラフ 5と呼ばれるが、そのようなグラフは対数グラフ 5と不正確ないい方で呼ばれることが多い。真の対数グラフ 6は両方の軸が対数的に目盛られたもので、両対数グラフ 6と呼ばれることもある。度数分布のグラフ表示には、階級度数を表示する点を直線で繋ぐことによって得られる度数多角形 7、階級間隔を底辺とする長方形の面積によって階級度数が表示される柱状図(ヒストグラム) 8、階級度数が棒の長さに比例する棒グラフ 9、累積度数分布を表す累積度数分布図(オージャイブ) 10などがある。
ヒストグラム
【英】:histogram
QC七つ道具の1つで, 測定値の存在する範囲をいくつかの区間に分けた場合, 各区間を底辺とし, その区間に属する測定値の出現度数に比例する面積をもつ柱 (長方形) を並べた図である. 区間の幅が一定ならば, 柱の高さは各区間に属する値の出現度数に比例するから, 高さに対して度数の目盛りを与える.データの分布状況や不良品の発生状況を把握するために用いられる.
企画・開発・プロジェクト・品質・ヒューマン: | デミング賞 ナーススケジューリング パレート図 ヒストグラム フロート プロジェクト管理 マトリックスデータ解析法 |
ヒストグラム
ヒストグラム(英語: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう[1]。
工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
語源
histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」(帆船のマスト、織機のバー、ヒストグラムの縦棒など)という意味の ἱστός (istos、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γράμμα (gramma、グラマ)を合わせた用語だといわれている。この用語は、イギリスの統計学者カール・ピアソンが1891年に historical diagram から創案したともいわれている[2]。
定義
日本工業規格 JIS Z 8101-1:2015 (国際規格 ISO 3534-1:2006 と同等)の「1.61 ヒストグラム」では、次のとおりに規定している[3]。
底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。
注記 1 級の幅が不均一な場合には,注意が必要である。級の幅が不均一な場合には,級の面積を級の度数に比例させるとよい。
注記 2 全ての級の幅を等しくし,長方形の高さを級の度数に比例させるのが一般的である。
ヒストグラム
ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱(棒)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)[4]。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべての階級の数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。
これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。
閲覧回数 | その回数を記録した日数 |
---|---|
0 - 99 | 1 |
100 - 199 | 2 |
200 - 299 | 4 |
300 - 399 | 5 |
400 - 499 | 4 |
500 - 599 | 7 |
600 - 699 | 7 |
700 - 799 | 1 |
[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
階級の個数と幅
階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[7]。
階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。
ウィキメディア・コモンズには、ヒストグラムに関連するカテゴリがあります。