マルコフ決定プロセスは確かにある状態から別の状態へ行くと、主のために使用されているとしなければならない計画と意思決定。
その理論
理論をすばやく繰り返すと、MDPは次のようになります。
MDP = ⟨ S、A 、T、R 、γ⟩
ここで、は状態、はアクション、は遷移確率(つまり、アクションが与えられると、ある状態から別の状態に移行する確率)、は報酬(特定の状態が与えられ、アクション)、およびは、将来の報酬の重要性を減らすために使用される割引係数です。SATPr (s′| s、a)Rγ
したがって、それを使用するには、事前に定義しておく必要があります。
- 状態:これらは、たとえば、ロボット工学のグリッドマップ、またはたとえば、ドアが開いていてドアが閉じていることを示します。
- アクション:ロボットの北、南、東などへの移動、ドアの開閉など、アクションの固定セット。
- 遷移確率:特定のアクションから特定の状態に移行する確率。たとえば、アクションが開いている場合にドアが開く確率はどのくらいですか。完璧な世界では、後者は1.0でしたが、ロボットの場合、ドアノブを正しく処理できなかった可能性があります。移動ロボットの場合の別の例は、アクションnorthです。ほとんどの場合、それはその北のグリッドセルに移動しますが、場合によっては、移動しすぎて次のセルに到達することもあります。
- 報酬:これらは、計画の指針として使用されます。グリッドの例の場合、特定のセルに移動したい場合があり、近づくと報酬が高くなります。ドアの例の場合、開いたドアは高い報酬を与える可能性があります。
MDPが定義されたら、Value IterationまたはPolicy Iterationを実行することでポリシーを学習できます。ValueIterationまたはPolicy Iterationは、各状態の予想報酬を計算します。ポリシーは、状態ごとに与えられる最高の行うには(MDPモデルを与えられた)アクションを。
要約すると、MDPは、アクションが常に100%効果的であるとは限らない効率的なアクションのシーケンスを計画する場合に役立ちます。
あなたの質問
物事を予測するために使用できますか?
たとえば、回帰のような予測ではなく、計画と呼びます。
もしそうなら、どのようなものですか?
例を参照してください。
無限のデータの中からパターンを見つけることができますか?
MDPは強化学習を行い、教師なし学習に必要なパターンを見つけるために使用されます。いいえ、無限のデータを処理することはできません。実際、ポリシーの検索の複雑さは、状態の数とともに指数関数的に増加します。| S|
このアルゴリズムは私にとって何ができますか。
例を参照してください。
MDPのアプリケーションの例
- White、DJ(1993)は、アプリケーションの大規模なリストに言及しています。
- 収穫:個体群のどのくらいのメンバーが繁殖のために残されなければならないか。
- 農業:天候と土壌の状態に基づいて植える量。
- 水資源:貯水池で正しい水位を維持します。
- 点検、保守、修理:年齢、状態などに基づいて交換/点検する時期
- 購入と生産:需要に基づいて生産する量。
- キュー:待ち時間を短縮します。
- ...
- ファイナンス:株式に投資する金額を決定します。
- ロボット工学:
そして、さらにいくつかのモデルがあります。さらに興味深いモデルは、部分的に観測可能なマルコフ意思決定プロセスです。このプロセスでは、状態は完全には見えず、代わりに観測を使用して現在の状態を把握しますが、これはこの質問の範囲外です。
追加情報
将来の状態の条件付き確率分布が現在の状態にのみ依存し、以前の状態に依存しない(つまり、以前の状態のリストに依存しない)場合、確率過程はマルコフです(またはマルコフ特性を持ちます)。