Belief MDPとは? わかりやすく解説

Belief MDP

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)

部分観測マルコフ決定過程」の記事における「Belief MDP」の解説

すべての状態に関する信念の値を状態とみなすことで、POMDP はマルコフ決定過程として計算することができる。このようにして得られMDP信念空間における MDP (belief MDP) と呼ぶ。POMDP に無限個の信念存在することから、belief MDP は連続状態空間上に定義される。 belief MDP は組 ⟨ B , A , τ , r ⟩ {\displaystyle \langle B,A,\tau ,r\rangle } で定義される.ここで B = { ( b ( s ) ) s ∈ S ∈ [ 0 , 1 ] N ∣ ∑ s b ( s ) = 1 } {\textstyle {\mathcal {B}}=\{(b(s))_{s\in {\mathcal {S}}}\in [0,1]^{N}\mid \sum _{s}b(s)=1\}} : 信念状態の集合 A {\textstyle {\mathcal {A}}} : 元のPDMDP と同じ行動集合 τ : B × A × B → [ 0 , 1 ] {\displaystyle \tau :{\mathcal {B}}\times {\mathcal {A}}\times {\mathcal {B}}\to [0,1]} : 信念状態空間における状態遷移確率 r : B × A → R {\displaystyle r:{\mathcal {B}}\times A\to \mathbb {R} } : 信念状態空間における報酬関数 このうち, τ {\displaystyle \tau } と r {\displaystyle r} は元のPOMDPからそれぞれ次のように導出される: τ ( b , a , b ′ ) = ∑ o ∈ Ω Pr ( b ′ | b , a , o ) Pr ( o | a , b ) r ( b , a ) = ∑ s ∈ S b ( s ) R ( s , a ) {\displaystyle {\begin{aligned}\tau (b,a,b')&=\sum _{o\in \Omega }\Pr(b'|b,a,o)\Pr(o|a,b)\\r(b,a)&=\sum _{s\in S}b(s)R(s,a)\end{aligned}}} ここで Pr ( o | a , b ) {\displaystyle \Pr(o|a,b)} は前節導出した値であり, Pr ( b ′ | b , a , o ) {\displaystyle \Pr(b'|b,a,o)} は次のように与えられる. Pr ( b ′ | b , a , o ) = { 1 if the belief update with arguments  b , a , o  returns  b ′ 0 otherwise  . {\displaystyle \Pr(b'|b,a,o)={\begin{cases}1&{\text{if the belief update with arguments }}b,a,o{\text{ returns }}b'\\0&{\text{otherwise }}\end{cases}}.} エージェントにとって自身信念(または belief MDP における状態の値)は既知であるため、信念 MDP はもはや部分観測でないことに注意されたい。 たいていの場合、(元のモデルにおける)各状態への信念ある程度の値をもっているため、"元の" MDP である行動特定の状態からしか利用できないような状況であっても対応する belief MDP ではその行動すべての状態で取ることができる。

※この「Belief MDP」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「Belief MDP」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「Belief MDP」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳

英語⇒日本語日本語⇒英語

辞書ショートカット

すべての辞書の索引

「Belief MDP」の関連用語

Belief MDPのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Belief MDPのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの部分観測マルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2026 GRAS Group, Inc.RSS