最適ポリシーの導出
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/09/24 18:52 UTC 版)
この問題の最適ポリシーを停止規則 (stopping rule) と呼ぶ。それに従うと、面接者は最初の r − 1 {\displaystyle r-1} 人の応募者をスキップし、その次の応募者が候補者(すなわち、それまで面接した中で最もよい応募者)なら採用する。任意の r {\displaystyle r} について最善の応募者を選択する確率は次の通りである。 P ( r ) = ∑ j = r n ( 1 n ) ( r − 1 j − 1 ) = ( r − 1 n ) ∑ j = r n ( 1 j − 1 ) {\displaystyle P(r)=\sum _{j=r}^{n}\left({\frac {1}{n}}\right)\left({\frac {r-1}{j-1}}\right)=\left({\frac {r-1}{n}}\right)\sum _{j=r}^{n}\left({\frac {1}{j-1}}\right)} n {\displaystyle n} が無限大に近づくとして、 r / n {\displaystyle r/n} の極限を x {\displaystyle x} 、 j / n {\displaystyle j/n} を t {\displaystyle t} 、 1 / n {\displaystyle 1/n} を d t {\displaystyle dt} とすると、上記の総和は次の積分で近似できる。 P ( r ) = x ∫ x 1 1 t d t = − x log ( x ) {\displaystyle P(r)=x\int _{x}^{1}{\frac {1}{t}}\,dt=-x\log(x)} P ( r ) {\displaystyle P(r)} の x {\displaystyle x} についての導関数をとり、それを0として x {\displaystyle x} について解くと、最適な x {\displaystyle x} が 1 / e {\displaystyle 1/e} であることがわかる。したがって最適な切捨て(スキップ)は n {\displaystyle n} が増大するにつれて n / e {\displaystyle n/e} に近づいていき、最善の応募者を選択する確率は 1 / e {\displaystyle 1/e} に近づいていく。 n {\displaystyle n} が小さい場合、最適な r {\displaystyle r} は標準的な動的計画法の手法で得られる。最適なしきい値 r {\displaystyle r} と最善例を選択する確率 P {\displaystyle P} を小さい n {\displaystyle n} について以下の表で示す。 n {\displaystyle n} 123456789 r {\displaystyle r} 1 1 2 2 3 3 3 4 4 P {\displaystyle P} 1.000 0.500 0.500 0.458 0.433 0.428 0.414 0.410 0.406 最善を選択する確率は非常に急速に 1 / e ≈ 0.368 {\displaystyle 1/e\approx 0.368} に収束する。
※この「最適ポリシーの導出」の解説は、「秘書問題」の解説の一部です。
「最適ポリシーの導出」を含む「秘書問題」の記事については、「秘書問題」の概要を参照ください。
- 最適ポリシーの導出のページへのリンク