信念の更新とは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

信念の更新

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2019/03/15 05:04 UTC 版)

環境の状態に関する情報を得るため、エージェントは行動 a {\displaystyle a} と観測 o {\displaystyle o} に基づき自身のもつ状態の信念 (belief) を更新する必要がある．ここで信念 b {\displaystyle b} は状態空間 S {\displaystyle {\mathcal {S}}} 上の確率分布として与えられる。 b ( s ) ∈ [ 0 , 1 ] {\displaystyle b(s)\in [0,1]} は環境が状態 s ∈ S {\displaystyle s\in {\mathcal {S}}} にいる確率を表す．マルコフ性のおかげで，すべての状態にわたる信念は直前の状態の信念，取った行動，そして現在の観測のみから修正することが出来る．現在ステップにおける信念 b : S → [ 0 , 1 ] {\displaystyle b:{\mathcal {S}}\to [0,1]} ，および行動 a {\displaystyle a} と観測 o {\displaystyle o} が得られた後，信念は次のように更新される: b ′ ( s ′ ) = η O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) ∀ s ′ ∈ S {\displaystyle b'(s')=\eta \;O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)\quad \forall s'\in {\mathcal {S}}} ここで 1 / Pr ( o | b , a ) {\displaystyle 1/\Pr(o|b,a)} は正規化定数であり， Pr ( o | b , a ) {\displaystyle \Pr(o|b,a)} は次式で与えられる． Pr ( o ∣ b , a ) = ∑ s ′ ∈ S O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) {\displaystyle \Pr(o\mid b,a)=\sum _{s'\in {\mathcal {S}}}O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)} .

※この「信念の更新」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「信念の更新」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「信念の更新」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

>> 「信念の更新」を含む用語の索引
信念の更新のページへのリンク

信念の更新とは？わかりやすく解説

信念の更新

「信念の更新」の関連用語


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの部分観測マルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

信念の更新とは？ わかりやすく解説

信念の更新

急上昇のことば

「信念の更新」の関連用語

信念の更新とは？わかりやすく解説