Belief MDP
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)
「部分観測マルコフ決定過程」の記事における「Belief MDP」の解説
すべての状態に関する信念の値を状態とみなすことで、POMDP はマルコフ決定過程として計算することができる。このようにして得られた MDP を信念空間における MDP (belief MDP) と呼ぶ。POMDP に無限個の信念が存在することから、belief MDP は連続状態空間上に定義される。 belief MDP は組 ⟨ B , A , τ , r ⟩ {\displaystyle \langle B,A,\tau ,r\rangle } で定義される.ここで B = { ( b ( s ) ) s ∈ S ∈ [ 0 , 1 ] N ∣ ∑ s b ( s ) = 1 } {\textstyle {\mathcal {B}}=\{(b(s))_{s\in {\mathcal {S}}}\in [0,1]^{N}\mid \sum _{s}b(s)=1\}} : 信念状態の集合 A {\textstyle {\mathcal {A}}} : 元のPDMDP と同じ行動の集合 τ : B × A × B → [ 0 , 1 ] {\displaystyle \tau :{\mathcal {B}}\times {\mathcal {A}}\times {\mathcal {B}}\to [0,1]} : 信念状態空間における状態遷移確率 r : B × A → R {\displaystyle r:{\mathcal {B}}\times A\to \mathbb {R} } : 信念状態空間における報酬関数 このうち, τ {\displaystyle \tau } と r {\displaystyle r} は元のPOMDPからそれぞれ次のように導出される: τ ( b , a , b ′ ) = ∑ o ∈ Ω Pr ( b ′ | b , a , o ) Pr ( o | a , b ) r ( b , a ) = ∑ s ∈ S b ( s ) R ( s , a ) {\displaystyle {\begin{aligned}\tau (b,a,b')&=\sum _{o\in \Omega }\Pr(b'|b,a,o)\Pr(o|a,b)\\r(b,a)&=\sum _{s\in S}b(s)R(s,a)\end{aligned}}} ここで Pr ( o | a , b ) {\displaystyle \Pr(o|a,b)} は前節で導出した値であり, Pr ( b ′ | b , a , o ) {\displaystyle \Pr(b'|b,a,o)} は次のように与えられる. Pr ( b ′ | b , a , o ) = { 1 if the belief update with arguments b , a , o returns b ′ 0 otherwise . {\displaystyle \Pr(b'|b,a,o)={\begin{cases}1&{\text{if the belief update with arguments }}b,a,o{\text{ returns }}b'\\0&{\text{otherwise }}\end{cases}}.} エージェントにとって自身の信念(または belief MDP における状態の値)は既知であるため、信念 MDP はもはや部分観測でないことに注意されたい。 たいていの場合、(元のモデルにおける)各状態への信念はある程度の値をもっているため、"元の" MDP である行動が特定の状態からしか利用できないような状況であっても、対応する belief MDP ではその行動をすべての状態で取ることができる。
※この「Belief MDP」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「Belief MDP」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。
- Belief MDPのページへのリンク