二項分類器の評価
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/06/29 01:12 UTC 版)
臨床検査の性能を測る場合、感度や特異度といった概念がよく使われる。これらの概念は任意の二項分類器の評価に利用可能である。ある人々が疾病に罹患しているかを検査すると仮定する。その集団の一部の人は罹患しており、彼らの検査結果は陽性であった。彼らは「真陽性」である。罹患しているのに検査結果が陰性だった人もいる。彼らは「偽陰性」である。また、罹患していない人で陰性だった人もいる。彼らは「真陰性」である。最後に、一部の健康な人の検査結果が陽性だった場合、それは「偽陽性」である。従って、真陽性、偽陰性、真陰性、偽陽性の率を合計すると 100% となる。 感度とは、陽性と判定されるべき人数(個体数)のうち、実際に陽性と判定された人数の割合である。すなわち、(真陽性)/(真陽性 + 偽陰性) である。つまり、「患者を陽性と判定する確率」である。感度が高ければ、患者を見逃すケースが減る。あるいは、工場での品質管理で言えば、問題のある製品が市場に出回る確率が減る。 特異度とは、陰性と判定されるべき人数(個体数)のうち、実際に陰性と判定された人数の割合である。すなわち、(真陰性)/(真陰性 + 偽陽性) である。感度と同様、これは「患者でない者を陰性と判定する確率」である。特異度が高ければ、健康な人を患者としてしまうケースが減る。あるいは、工場での品質管理で言えば、問題のない製品を捨てることが減って、損失が減ることになる。 感度と特異度の関係や分類器の性能は、受信者操作特性曲線を使って視覚化、研究できる。 理論上、感度と特異度は独立しており、共に100%を達成することも可能である(人間が青のボールと赤のボールを分類する場合がそれである)。実際、何らかのトレードオフがあって、両方を100%にできないことが多い。その原因は、陰性か陽性かを判定する属性が、赤と青のような明らかなものでないことが多いためである。一般に属性は0と1のような分かり易い値ではなく、ある範囲を陽性または陰性と判定することが多い。例えば、肥満度を調べるボディマス指数が典型的な例である。感度を高くしたい場合、しきい値を低く設定すれば、なるべく多くの人を肥満と判定する。つまり、真陽性の率が増え、偽陰性の率が減る。従って、感度は良くなる。ただし欠点として、偽陽性の率も高くなるため、正常な人が肥満と判定される確率が高くなり、結果として特異度が悪くなる。 感度と特異度に加えて、二項分類試験の性能の尺度として陽性予測値と陰性予測値がある。こちらの方が直観的に分かりやすい。陽性予測値は「ある人の検査結果が陽性だったとき、実際に罹患している確率」である。計算式は(真陽性)/(真陽性 + 偽陽性)となる。つまり、陽性となった結果のうち、真陽性が占める割合である。陰性予測値も同様に計算できる。 ただし、これらの違いを認識しておく必要がある。感度と特異度は、検査結果の陽性と陰性の割合には依存しないという意味で、個体群から独立している。実際、検査の感度を求めるのに必要なのは、実際には陽性と判定されるべきケースだけである。しかし、予測値の方は個体群に依存している。 例として、99% の感度と 99% の特異度の臨床検査があるとする。健康な1000人と罹患している1000人の合計2000人に対してこの検査を行う。検査結果は真陽性と真陰性がそれぞれ990人で、偽陽性と偽陰性がそれぞれ10人となるはずである。この場合の陽性予測値と陰性予測値は 99% となり、非常にわかりやすい。 しかし、2000人のうち罹患しているのが100人だった場合、真陽性が99人、偽陰性が1人、真陰性が1881人、偽陽性が19人となる。つまり、陽性と判定されるのは 99+19人で、このうち真陽性なのは 99人だけである。従って、陽性と言われた人が本当に罹患している確率は 84% でしかない。一方、陰性と言われた人は安心してよい。陰性といわれて実際には罹患している確率は(この場合)0.05% しかない。
※この「二項分類器の評価」の解説は、「二項分類」の解説の一部です。
「二項分類器の評価」を含む「二項分類」の記事については、「二項分類」の概要を参照ください。
- 二項分類器の評価のページへのリンク