はこひげ‐ず【箱×髭図】
箱髭図
Tukey の箱髭図}は,図 1 のようなものである。
![]() 図 1.箱髭図の例 |
---|
箱髭図は以下のようにして描かれる。
- 長方形の下側の辺は第1四分位数,上側の辺は第3四分位数である。
- 長方形の中央の線は中央値である。
- 長方形の下側の辺から伸びる点線の先端は,実際に存在するデータで「第1四分位数-1.5×IQR」より大きいデータ点である。
- 長方形の上側の辺から伸びる点線の先端は,実際に存在するデータで「第3四分位数+1.5×IQR」より小さいデータ点である。
- 「第1四分位数-1.5IQR」より小さいデータ点と,「第3四分位数+1.5IQR」より大きいデータは外れ値として 1 個ずつ記号で表示される。
IQR = 第3四分位数-第1四分位数
注2: 長方形を平均値±標準偏差で描いたり,髭を最大値・最小値まで伸ばすという図が描かれる場合があるが,本来の箱髭図と混乱するので避ける方がよい。
注3: データの分布をより詳しく表示するにはいくつかの方法がある。
以下の 21 個のデータがある。これを箱髭図で表現してみよう。
59, 64, 41, 44, 58, 34, 63, 68, 51, 38, 66, 65, 41, 46, 61, 32, 54, 45, 67, 62, 100
- まず,小さい順に並べ,最小値,第1四分位数,中央値,第3四分位数,最大値の 5 つの要約値を求める
32, 34, 38, 41, 41, 44, 45, 46, 51, 54, 58, 59, 61, 62, 63, 64, 65, 66, 67, 68, 100 - 最小値=32,第1四分位数=44,中央値=58,第3四分位数=64,最大値=100
- 四分範囲(IQR)=64-44=20
- 上側の髭は,実際に存在するデータ値で,64+1.5×20=94 より小さいもの,ということで 68
- 下側の髭は,実際に存在するデータ値で,44-1.5×20=14 より大きいもの,ということで 32
- 64+1.5×20=94 より大きいもの,44-1.5×20=14 より小さいものは 100 というデータ値 1 個である
注:R の fivenum 関数と quantile 関数は同じ 5 数要約値を返すが,定義が若干異なっており(quantile 関数は 9 通りものアルゴリズムをサポートしている),第1四分位数・第3四分位数については場合によっては両者の結果は一致しない。
![]() 図 2.箱髭図 |
---|
箱髭図
例題:
「表 1 のデータをス箱髭図で表しなさい。」
|
R による解析:
dat <- c( 0.84, 1.05, 1.13, 1.26, 1.54, 0.86, 1.05, 1.14, 1.26, 1.57, 0.90, 1.06, 1.16, 1.28, 1.62, 0.92, 1.06, 1.17, 1.33, 1.66, 0.93, 1.07, 1.18, 1.35, 1.74, 0.98, 1.08, 1.19, 1.35, 1.87, 1.01, 1.09, 1.20, 1.35, 2.00, 1.02, 1.10, 1.22, 1.39, 1.03, 1.12, 1.23, 1.42, 1.04, 1.13, 1.24, 1.46) boxplot(dat)![]()
箱ひげ図

箱ひげ図(はこひげず、箱髭図、英: box plot、box-and-whisker plot)は、データの統計的ばらつきをわかりやすく表現するための統計図である。主に多くの水準からなる分布を視覚的に要約し、比較するために用いる。ジョン・テューキーが1970年代に提唱した。様々な分野で利用されるが、特に品質管理で盛んに用いられる。箱(box)と、その両側に出たひげ(whisker)で表現されることからこの名がある[1]。
定義

箱ひげ図は五数要約(five-number summary)と呼ばれる(頑健な)要約統計量
- Q0/4: 最小値(minimum)
- Q1/4: 第1四分位点(lower quartile)
- Q2/4: 中央値(第2四分位点、median)
- Q3/4: 第3四分位点(upper quartile)
- Q4/4: 最大値(maximum)
を表すグラフである。第1四分位点から第3四分位点までの高さに箱を描き、中央値で仕切りを描く。ただし、ひげや外れ値、箱の幅・形などの扱いにはいくつか変種がある。簡明なのは最大値と最小値をひげの端で表したものである。外れ値も扱うときには閉区間
箱ひげ図の具体例 このデータセット(値は図から読み取れる概略値とする)から、次のことが分かる。
- 最小値 = 0.5
- 第1四分位点 = 7
- 中央値(第2四分位点) 8.5
- 第3四分位点 = 9
- 最大値 = 10
- 四分位範囲(IQR) = 2
- 3.5という値は"軽度の"外れ値、つまりQ1/4よりも 1.5×IQR から 3×IQR だけ下にある
- 0.5という値は"極端な"外れ値、つまりQ1/4よりも 3×IQR 以上下にある
- 外れ値以外の最小値は5
- データは左に歪んでいる(負の歪度)
"軽度"および"極端"外れ値の境は、箱の長さの2倍の点である。なお、この図からデータの平均値は読み取れない。
変種
いろいろな統計パッケージで使われている箱ひげ図の中には、違う方式(例えば5%点と95%点をひげの端にする)を採用したものもある。このような方式は、中央値を中心とする分布を強調するテューキーの方式と異なり、またデータサイズが10を越えただけで(分布の形によらず)外れ値を出してしまう傾向がある。
脚注
- ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.6 箱ひげ図 p.13, オーム社, 2013, ISBN 9784274214073
- ^ Dekking et al. 2005, 16.4 The box-and-whisker plot.
- ^ R言語の
boxplot
もデフォルトではこのようにプロットする。
参考文献
- Dekking, F. M.; Kraaikamp, C.; Lopuhaä, H. P.; Meester, L. E. (2005). A modern introduction to probability and statistics. Springer Texts in Statistics. Springer-Verlag. ISBN 978-1-85233-896-1. MR2208349
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
関連項目
外部リンク
- 総務省統計局. “箱ひげ図”. なるほど統計学高等部. 2016年3月29日閲覧。—Excelで箱ひげ図を作る方法
- “What is Box plot”. 2023年7月8日閲覧。—R言語で箱ひげ図を作る方法
- 箱髭図のページへのリンク