信念の更新とは? わかりやすく解説

信念の更新

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)

部分観測マルコフ決定過程」の記事における「信念の更新」の解説

環境の状態に関する情報を得るため、エージェント行動 a {\displaystyle a} と 観測 o {\displaystyle o} に基づき自身のもつ状態の信念 (belief) を更新する必要がある.ここで信念 b {\displaystyle b} は状態空間 S {\displaystyle {\mathcal {S}}} 上の確率分布として与えられる。 b ( s ) ∈ [ 0 , 1 ] {\displaystyle b(s)\in [0,1]} は環境が状態 s ∈ S {\displaystyle s\in {\mathcal {S}}} にいる確率を表す. マルコフ性おかげですべての状態にわたる信念直前の状態の信念取った行動そして現在観測のみから修正することが出来る.現在ステップにおける信念 b : S → [ 0 , 1 ] {\displaystyle b:{\mathcal {S}}\to [0,1]} ,および行動 a {\displaystyle a} と 観測 o {\displaystyle o} が得られた後,信念次のように更新される: b ′ ( s ′ ) = η O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) ∀ s ′ ∈ S {\displaystyle b'(s')=\eta \;O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)\quad \forall s'\in {\mathcal {S}}} ここで 1 / Pr ( o | b , a ) {\displaystyle 1/\Pr(o|b,a)} は正規化定数であり, Pr ( o | b , a ) {\displaystyle \Pr(o|b,a)} は次式で与えられる. Pr ( o ∣ b , a ) = ∑ s ′ ∈ S O ( o ∣ s ′ , a ) ∑ s ∈ S T ( s ′ ∣ s , a ) b ( s ) {\displaystyle \Pr(o\mid b,a)=\sum _{s'\in {\mathcal {S}}}O(o\mid s',a)\sum _{s\in {\mathcal {S}}}T(s'\mid s,a)b(s)} .

※この「信念の更新」の解説は、「部分観測マルコフ決定過程」の解説の一部です。
「信念の更新」を含む「部分観測マルコフ決定過程」の記事については、「部分観測マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「信念の更新」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「信念の更新」の関連用語

信念の更新のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



信念の更新のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの部分観測マルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS