Belief MDPとは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

Belief MDP

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2019/03/15 05:04 UTC 版)

すべての状態に関する信念の値を状態とみなすことで、POMDP はマルコフ決定過程として計算することができる。このようにして得られた MDP を信念空間における MDP (belief MDP) と呼ぶ。POMDP に無限個の信念が存在することから、belief MDP は連続状態空間上に定義される。 belief MDP は組 ⟨ B , A , τ , r ⟩ {\displaystyle \langle B,A,\tau ,r\rangle } で定義される．ここで B = { ( b ( s ) ) s ∈ S ∈ [ 0 , 1 ] N ∣ ∑ s b ( s ) = 1 } {\textstyle {\mathcal {B}}=\{(b(s))_{s\in {\mathcal {S}}}\in [0,1]^{N}\mid \sum _{s}b(s)=1\}} : 信念状態の集合 A {\textstyle {\mathcal {A}}} : 元のPDMDP と同じ行動の集合 τ : B × A × B → [ 0 , 1 ] {\displaystyle \tau :{\mathcal {B}}\times {\mathcal {A}}\times {\mathcal {B}}\to [0,1]} : 信念状態空間における状態遷移確率 r : B × A → R {\displaystyle r:{\mathcal {B}}\times A\to \mathbb {R} } : 信念状態空間における報酬関数このうち， τ {\displaystyle \tau } と r {\displaystyle r} は元のPOMDPからそれぞれ次のように導出される: τ ( b , a , b ′ ) = ∑ o ∈ Ω Pr ( b ′ | b , a , o ) Pr ( o | a , b ) r ( b , a ) = ∑ s ∈ S b ( s ) R ( s , a ) {\displaystyle {\begin{aligned}\tau (b,a,b')&=\sum _{o\in \Omega }\Pr(b'|b,a,o)\Pr(o|a,b)\\r(b,a)&=\sum _{s\in S}b(s)R(s,a)\end{aligned}}} ここで Pr ( o | a , b ) {\displaystyle \Pr(o|a,b)} は前節で導出した値であり， Pr ( b ′ | b , a , o ) {\displaystyle \Pr(b'|b,a,o)} は次のように与えられる． Pr ( b ′ | b , a , o ) = { 1 if the belief update with arguments b , a , o returns b ′ 0 otherwise . {\displaystyle \Pr(b'|b,a,o)={\begin{cases}1&{\text{if the belief update with arguments }}b,a,o{\text{ returns }}b'\\0&{\text{otherwise }}\end{cases}}.} エージェントにとって自身の信念（または belief MDP における状態の値）は既知であるため、信念 MDP はもはや部分観測でないことに注意されたい。たいていの場合、（元のモデルにおける）各状態への信念はある程度の値をもっているため、"元の" MDP である行動が特定の状態からしか利用できないような状況であっても、対応する belief MDP ではその行動をすべての状態で取ることができる。

※この「Belief MDP」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「Belief MDP」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「Belief MDP」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

>> 「Belief MDP」を含む用語の索引
Belief MDPのページへのリンク

Belief MDPとは？わかりやすく解説

Belief MDP

英和和英テキスト翻訳

「Belief MDP」の関連用語


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの部分観測マルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

Belief MDPとは？ わかりやすく解説

Belief MDP

急上昇のことば

英和和英テキスト翻訳

「Belief MDP」の関連用語

Belief MDPとは？わかりやすく解説