階級の個数と幅
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/14 04:43 UTC 版)
階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある。 階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。 h = ⌈ max x − min x k ⌉ . {\displaystyle h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .} 上式の大括弧は天井関数を示す。 平方根選択(英: Square-root choice) k = n , {\displaystyle k={\sqrt {n}},\,} 標本中のデータ数の平方根をとるものである。 スタージェスの公式(英: Sturges' formula) k = ⌈ log 2 n + 1 ⌉ , {\displaystyle k=\lceil \log _{2}n+1\rceil ,\,} この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。 スコットの選択(英: Scott's choice) h = 3.5 σ n 1 / 3 , {\displaystyle h={\frac {3.5\,\sigma }{n^{1/3}}},} ここで σ は標本の標準偏差である。 フリードマン・ダイアコニスの選択(英: Freedman–Diaconis' choice) h = 2 IQR ( x ) n 1 / 3 , {\displaystyle h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},} IQR で示される四分位範囲に基づく。 L2 危険関数推定の最小化に基づく選択 a r g m i n h 2 m ¯ − v h 2 {\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}} ここで m と v は、階級の幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1/k ∑ki = 1 mi であり、v = 1/k ∑ki = 1 (mi − m)2 である。
※この「階級の個数と幅」の解説は、「ヒストグラム」の解説の一部です。
「階級の個数と幅」を含む「ヒストグラム」の記事については、「ヒストグラム」の概要を参照ください。
- 階級の個数と幅のページへのリンク