信念の更新
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)
「部分観測マルコフ決定過程」の記事における「信念の更新」の解説
環境の状態に関する情報を得るため、エージェントは行動 a {\displaystyle a} と 観測 o {\displaystyle o} に基づき自身のもつ状態の信念 (belief) を更新する必要がある.ここで信念 b {\displaystyle b} は状態空間 S {\displaystyle {\mathcal {S}}} 上の確率分布として与えられる。 b ( s ) ∈ [ 0 , 1 ] {\displaystyle b(s)\in [0,1]} は環境が状態 s ∈ S {\displaystyle s\in {\mathcal {S}}} にいる確率を表す. マルコフ性のおかげで,すべての状態にわたる信念は直前の状態の信念,取った行動,そして現在の観測のみから修正することが出来る.現在ステップにおける信念 b : S → [ 0 , 1 ] {\displaystyle b:{\mathcal {S}}\to [0,1]} ,および行動 a {\displaystyle a} と 観測 o {\displaystyle o} が得られた後,信念は次のように更新される: b ′ ( s ′ ) = η O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) ∀ s ′ ∈ S {\displaystyle b'(s')=\eta \;O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)\quad \forall s'\in {\mathcal {S}}} ここで 1 / Pr ( o | b , a ) {\displaystyle 1/\Pr(o|b,a)} は正規化定数であり, Pr ( o | b , a ) {\displaystyle \Pr(o|b,a)} は次式で与えられる. Pr ( o ∣ b , a ) = ∑ s ′ ∈ S O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) {\displaystyle \Pr(o\mid b,a)=\sum _{s'\in {\mathcal {S}}}O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)} .
※この「信念の更新」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「信念の更新」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。
- 信念の更新のページへのリンク