ナイーブ推定量
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/06 07:23 UTC 版)
「カプラン=マイヤー推定量」の記事における「ナイーブ推定量」の解説
カプラン=マイヤー推定量の能力を理解するために、まず、生存関数のナイーブ推定量(naive estimator)を説明する価値がある。 k ∈ [ n ] := { 1 , … , n } {\displaystyle k\in [n]:=\{1,\dots ,n\}} とし、 t > 0 {\displaystyle t>0} とする。基本的な議論により、以下の命題が成立することがわかる。 命題1:イベント k {\displaystyle k} の打ち切り時間 c k {\displaystyle c_{k}} が t {\displaystyle t} ( c k ≥ t {\displaystyle c_{k}\geq t} ) を超える場合、 τ k = t {\displaystyle \tau _{k}=t} である場合に限り、 τ ~ k = t {\displaystyle {\tilde {\tau }}_{k}=t} になる。 c k ≥ t {\displaystyle c_{k}\geq t} となるような k {\displaystyle k} があるとしよう。上記の命題から、 Prob ( τ k ≥ t ) = Prob ( τ ~ k ≥ t ) . {\displaystyle \operatorname {Prob} (\tau _{k}\geq t)=\operatorname {Prob} ({\tilde {\tau }}_{k}\geq t).} が成り立つ。 X k = I ( τ ~ k ≥ t ) {\displaystyle X_{k}=\mathbb {I} ({\tilde {\tau }}_{k}\geq t)} とし、 k ∈ C ( t ) := { 1 ≤ k ≤ n : c k ≥ t } {\displaystyle k\in C(t):=\{1\leq k\leq n\,:\,c_{k}\geq t\}} のものだけ、つまり時刻 t {\displaystyle t} 以前に結果が打ち切られなかった事象を考えよう。 m ( t ) = | C ( t ) | {\displaystyle m(t)=|C(t)|} を C ( t ) {\displaystyle C(t)} の要素の数としよう。なお、集合 C ( t ) {\displaystyle C(t)} は確率的ではないので、 m ( t ) {\displaystyle m(t)} も確率的ではないことに注意を要する。さらに、 ( X k ) k ∈ C ( t ) {\displaystyle (X_{k})_{k\in C(t)}} は、共通パラメータ S ( t − 1 ) = Prob ( τ ≥ t ) {\displaystyle S(t-1)=\operatorname {Prob} (\tau \geq t)} を持つ独立同分布のベルヌーイ確率変数の列である。 m ( t ) > 0 {\displaystyle m(t)>0} と仮定すると、 S ^ naive ( t − 1 ) = 1 m ( t ) ∑ k : c k ≥ t X k = | { 1 ≤ k ≤ n : τ ~ k ≥ t } | | { 1 ≤ k ≤ n : c k ≥ t } | = | { 1 ≤ k ≤ n : τ ~ k ≥ t } | m ( t ) , {\displaystyle {\hat {S}}_{\text{naive}}(t-1)={\frac {1}{m(t)}}\sum _{k:c_{k}\geq t}X_{k}={\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq t\}|}{|\{1\leq k\leq n\,:\,c_{k}\geq t\}|}}={\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq t\}|}{m(t)}},} を用いて S ( t − 1 ) {\displaystyle S(t-1)} を推定することになる。ここで、 τ ~ k ≥ t {\displaystyle {\tilde {\tau }}_{k}\geq t} は c k ≥ t {\displaystyle c_{k}\geq t} を意味するため、2番目の等式が続く。最後の等式は単に表記法の変更である。 この推定量の質は、 m ( t ) {\displaystyle m(t)} の大きさによって決まる。これは、 m ( t ) {\displaystyle m(t)} が小さい場合に問題となる、これは定義上、多くのイベントが打ち切られた場合に起こる。この推定量の特に不快な特性は、おそらくそれが「最良」の推定量ではないことを示唆しており、それは打ち切り時間が t {\displaystyle t} より前のすべての観測を無視することである。直感的には、これらの観測はまだ S ( t ) {\displaystyle S(t)} に関する情報を含んでいる。たとえば、 c k < t {\displaystyle c_{k}<t} の多くのイベントで、 τ ~ k < c k {\displaystyle {\tilde {\tau }}_{k}<c_{k}} も成り立つ場合、イベントが早期に起こることが多いと推測できる。これは、 Prob ( τ ≤ t ) {\displaystyle \operatorname {Prob} (\tau \leq t)} が大きいことを意味し、 S ( t ) = 1 − Prob ( τ ≤ t ) {\displaystyle S(t)=1-\operatorname {Prob} (\tau \leq t)} を介して、 S ( t ) {\displaystyle S(t)} は小さくなければならないことを意味する。ただし、このナイーブ推定法では、この情報は無視される。そこで問題となるのは、すべてのデータをより有効に利用できる推定量が存在するかどうかである。これを実現したのが、カプラン=マイヤー推定量である。なお、打ち切りが行われていない場合には、ナイーブ推定量を改善することはできないので注意を要する。したがって、改善できるかどうかは打ち切りが行われているかどうかに決定的に依存する。
※この「ナイーブ推定量」の解説は、「カプラン=マイヤー推定量」の解説の一部です。
「ナイーブ推定量」を含む「カプラン=マイヤー推定量」の記事については、「カプラン=マイヤー推定量」の概要を参照ください。
- ナイーブ推定量のページへのリンク