非決定プランニングでのヒューリスティック関数
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/01/16 01:19 UTC 版)
「自動計画」の記事における「非決定プランニングでのヒューリスティック関数」の解説
非決定的プランニング問題への強力なヒューリスティクス関数として、決定化(Determination)がある。これは、現在ノードからゴールまでのコストの下界を、問題が決定的であると仮定して解くことにより得る手法である。この手法は驚くほどシンプルであるが、国際コンペティション IPC 2004 確率的プランニング部門で優勝し、その後活発に研究された。決定化にも複数の種類が有り、「成功」と「失敗」と言ったように片方がもう一方をdominateする場合には「成功」だけを採択して決定化する手法や、すべての非決定的実行結果を別のノードとして扱うことによる決定化、あるいは(確率的プランニングで最適性が求められない場合)もっとも確からしい結果のみを用いる決定化などが存在する。 近年、ポリシーを実数値関数としてニューラルネットワークにより近似し、これを強化学習によって訓練する手法が活発に研究されている。これらの手法によって得られたポリシー関数・Q関数は、プランニングにおけるヒューリスティック関数を同様、実行時に探索を誘導する役目を持っている。しかし、これらの学習された関数とプランニングにおけるヒューリスティック関数には大きな違いがある。 学習された関数は特定の問題ドメインに特化した関数である。例えば、特定のゲームのために訓練されたポリシー関数は、別のゲームにおいては使うことが出来ない。 メタ強化学習を仮定するとしても、あくまでも訓練ゲームと似たドメインにおいて内挿を行うことが暗黙の前提となっている。 プランニングにおけるヒューリスティック関数は訓練を必要としない。新たに与えられた問題を、問題を解く時間の中で分析し、自動で探索の誘導を行う。言い換えれば、初めて見た問題を観察し、その場で学習を行うと言うこともできる。 プランニングにおけるヒューリスティック関数は問題の解コストの下界関数である。有限時間で学習が停止されたポリシー関数にそのような性質はない。これは、時間を無限にとった極限で正しいポリシー関数に収束することとは別の性質である。
※この「非決定プランニングでのヒューリスティック関数」の解説は、「自動計画」の解説の一部です。
「非決定プランニングでのヒューリスティック関数」を含む「自動計画」の記事については、「自動計画」の概要を参照ください。
- 非決定プランニングでのヒューリスティック関数のページへのリンク