生存関数の例
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/07 21:20 UTC 版)
下のグラフは、仮想的な生存関数の例である。X軸は時間、Y軸は被験者の生存率である。このグラフは、被験者が時間 t を超えて生存する確率を示す。 たとえば、生存関数1(survival function 1)の場合、t = 2ヶ月 より長く生存する確率は 0.37 である。つまり、被験者の 37% が 2か月 以上生存する。 生存関数2の場合、t = 2ヶ月 より長く生存する確率は 0.97 である。つまり、被験者の 97% が 2か月 以上生存する。 生存期間中央値(median survival)は、生存関数から求めることができる。たとえば、生存関数2の場合、被験者の 50% が 3.72か月 生存する。したがって、生存期間中央値は 3.72ヶ月 となる。 場合によっては、生存率中央値がグラフから判断できないこともある。たとえば、生存関数4では、50% 以上の被験者が10ヶ月の観察期間よりも長く生存する。 生存関数は、生存データを記述および表示するためのいくつかの方法の1つである。データを表示するもう1つの有用な方法は、被験者の生存期間の分布を示すグラフである。Olkinは著書(p.426)で、生存データの例として次のように述べている。空調設備の連続故障の間の時間数を記録した。連続した故障の間の時間は、1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42, 47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261 時間である。平均故障間隔は 59.6 である。この平均値は、データに理論的な曲線を当てはめるために使用される。次の図は、故障間隔の分布を示している。グラフの下にある青い目盛りは、連続した故障の間の実際の時間である。 この故障時間の分布に、指数分布を表す曲線を重ねて示している。この例では、指数分布が故障時間の分布を近似している。指数曲線は、実際の故障時間に適合した理論上の分布である。この指数曲線は、λ(ラムダ)= 1/(平均故障間隔) = 1/59.6 = 0.0168 というパラメータで指定される。故障時間の分布は、時間が任意の正の値を取ることができる場合、確率密度関数(probability density function、PDF)と呼ばれる。方程式では、PDF を f(t) と表記する。時間が離散的な値(1日、2日、など)しか取れない場合、故障時間の分布は確率質量関数(probability mass function、PMF)と呼ばれる。ほとんどの生存分析法は、時間が任意の正の値をとると仮定し、f(t) を PDF としている。観測された空調設備の故障の間の時間を指数関数で近似すると、指数曲線から空調設備の故障時間の確率密度関数 f(t) が得られる。 生存データを表示するもう一つの有用な方法は、各時点までの累積故障数を示すグラフである。これらのデータは、各時点までの故障の累積数または累積故障率のいずれかで表示される。下のグラフは、空調設備の各時点での故障の累積確率(または割合)を示している。黒色の階段線は、累積故障率を示す。各段について、グラフの下部に、観測された故障時間を示す青色のマークがある。滑らかな赤線は、観測データに適合した指数曲線を表している。 各時点までの累積故障率のグラフを累積分布関数(cumulative distribution function、CDF)と呼ぶ。生存分析では、累積分布関数は、生存期間が特定の時間 t 以下になる確率を示す。 T を生存期間とし、任意の正の数とする。特定の時間は小文字の t で示す。T の累積分布関数は次の関数で表される。 F ( t ) = P ( T ≤ t ) {\displaystyle F(t)=\operatorname {P} (T\leq t)} ここで、右辺は確率変数 T が t 以下になる確率を表す。時間が任意の正の値を取ることができる場合、累積分布関数 F(t) は、確率密度関数 f(t) の積分である。 空調設備の例では、データに適合する指数曲線を用いて推定した場合、以下の CDF のグラフから、故障までの時間が100時間以下になる確率が 0.81 であることがわかる。 故障時間が100時間以下である確率をグラフ化する代わりに、故障時間が100時間を超える確率をグラフ化することもできる。確率の合計は 1 になる必要があるため、故障時間が100時間を超える確率は、1 から故障時間が100時間以下である確率を引いたものでなければならない。 これにより、 P(故障時間 > 100時間) = 1 - P(故障時間 < 100時間) = 1 - 0.81 = 0.19 となる。 この関係は、次のように、すべての故障時間に一般化される。 P(T > t) = 1 - P(T < t) = 1 – 累積分布関数 この関係を下のグラフに示す。左側のグラフは、累積分布関数で、P(T < t) である。右側のグラフは、P(T > t) = 1 - P(T < t) である。右側のグラフは、生存関数 S(t) である。S(t) = 1 – CDF である事実が、生存関数の別名が相補累積分布関数である理由である。
※この「生存関数の例」の解説は、「生存関数」の解説の一部です。
「生存関数の例」を含む「生存関数」の記事については、「生存関数」の概要を参照ください。
- 生存関数の例のページへのリンク