混同行列

ウィキペディア

索引トップランキングカテゴリー

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2021/08/28 07:09 UTC 版)

ナビゲーションに移動検索に移動

これは特別な種類の分割表で、2つの次元（「実際」と「予測」）と、両方の次元で同一の「クラス」のセットからなる（次元とクラスの各組み合わせは分割表の変数である）。

混同行列の例

例として、ネコの写真が8枚、イヌの写真が4枚の計12枚の写真がサンプルとして与えられ、ネコがクラス1に、イヌがクラス0に属するとする。

この例では、正解となる実際の値を

実際 = [1,1,1,1,1,1,1,1,0,0,0,0] と表示することができる。

ここで、ネコとイヌを区別する分類器で学習したと仮定して、この12枚の写真を分類器にかける。この分類器は9つの写真で正確な予測を行い、以下の3つの予測を外したとする。

予測結果 = [0,0,1,1,1,1,1,1,0,0,0,1]

この予測結果では以下のことがわかる。

最初の2匹のネコがイヌと間違って予測
最後の1匹のイヌがネコと間違って予測

この2つのラベル付きのデータセット（実際と予測）を使って、分類器で予測した結果をまとめた混同行列は以下の通りとなる。

予測実際	ネコ	イヌ
ネコ	6	2
イヌ	1	3

この混同行列では、8枚のネコの写真のうち、2枚をイヌと判断し、4枚のイヌの写真のうち、1枚をネコと予測している。正しい予測ができた数が表の対角線上に位置しており（太字で表示）、対角線から外れた部分に誤判定の数を表示している^[2]。混同行列により、分類結果を簡単かつ視覚的に表すことが可能である^[3]。

混同テーブル

予測分析において、混同表（混同行列と呼ばれることもある）とは、2行2列の表で、真陽性、真陰性、偽陽性、偽陰性の数を表したものである。これにより、単なる正しい分類の割合（精度）だけでなく、より詳細な分析が可能になる。精度は、データセットが不均衡な場合、つまり、異なるクラスの観測数が大きく異なる場合、誤解を招く結果をもたらす。例えば、上記の例で極端に猫と犬の割合を変えて、猫が95匹、犬が5匹で分類をした場合、分類器によってはすべての予測を猫として分類するかもしれない。その場合、全体の精度は95% (95/100) となる。しかし、詳細を確認してみると、その分類器は猫クラスの認識率（感度）は100%だが、犬クラスの認識率は0%である。なお、F1スコア（英語版）はこのような例では低くなり97.4%以上となる。Davide ChiccoとGiuseppe Jurmanによると、混同行列を評価するための最も有益な指標は、マシューズ相関係数（MCC）（英語版）である^[4]。

一般的な混同行列は以下のように表記される。