回答:
状態遷移確率関数を学習しないアルゴリズムは、モデルフリーと呼ばれます。モデルベースのアルゴリズムの主な問題の1つは、多くの状態が存在することが多く、ナイーブモデルは状態の数が2次であることです。これは、膨大なデータ要件を課します。
Qラーニングはモデルフリーです。状態遷移確率関数は学習しません。
明確にするために、アクション値関数は1つしかないため、を置き換える必要があると思います。次の状態のアクションでQを評価しているだけです。この表記は、がどこにあるかを示します。
直感的に、は環境のプロパティです。私たちはそれがどのように動作するかを制御するのではなく、単にそれからサンプリングします。この更新を呼び出す前に、まず状態Sにある間にアクションAを実行する必要があります。これを実行するプロセスにより、報酬が得られ、次の状態に移動します。あなたが着陸する次の状態は、その定義によりから引き出されます。したがって、Qラーニングの更新では、が1であると本質的に仮定しています。
環境の完全なダイナミクス、より具体的には値を知らなくても、最適なアクション値関数を推定する反復法であるため、これは問題ありません。この情報を提供する環境のモデルがある場合、戻り値を変更するだけで、更新を変更して含めることができます。。γ P (S ' | S 、Aは)mは、X A(Q (S '、))
SARSA
またはQ-learning
)を使用する必要があるかについて何か考えがありますか?ありがとう。
上記に加えて、Qラーニングはモデルフリーアルゴリズムです。つまり、エージェントは環境が与える状態を知っているだけです。つまり、エージェントがアクションを選択して実行する場合、次の状態は環境によってのみ決定され、エージェントに与えられます。そのため、エージェントは状態遷移確率を考慮しません。