マルコフ決定プロセスの実例


20

私はたくさんのチュートリアルビデオを見てきましたが、それらは同じように見えます。たとえば、これはhttps://www.youtube.com/watch?v=ip4iSMRW5X4

彼らは素晴らしい状態、行動、確率を説明します。人はそれを大丈夫と説明しますが、私はそれが実際の生活で何に使われるのかを把握できないようです。まだリストに出会っていません。私が見る最も一般的なものはチェスです。

物事を予測するために使用できますか?もしそうなら、どのようなものですか?無限のデータ量のパターンを見つけることができますか?このアルゴリズムは私にとって何ができますか。

ボーナス:また、MDPはある状態から別の状態への移行に関するものだと感じていますが、これは本当ですか?

回答:


28

マルコフ決定プロセスは確かにある状態から別の状態へ行くと、主のために使用されているとしなければならない計画意思決定

その理論

理論をすばやく繰り返すと、MDPは次のよ​​うになります。

MDP=S,A,T,R,γ

ここで、は状態、はアクション、は遷移確率(つまり、アクションが与えられると、ある状態から別の状態に移行する確率)、は報酬(特定の状態が与えられ、アクション)、およびは、将来の報酬の重要性を減らすために使用される割引係数です。SATPr(s|s,a)Rγ

したがって、それを使用するには、事前に定義しておく必要があります。

  1. 状態:これらは、たとえば、ロボット工学のグリッドマップ、またはたとえば、ドアが開いていてドアが閉じていることを示します。
  2. アクション:ロボットの北、南、東などへの移動、ドアの開閉など、アクションの固定セット。
  3. 遷移確率:特定のアクションから特定の状態に移行する確率。たとえば、アクションが開いている場合にドアが開く確率はどのくらいですか。完璧な世界では、後者は1.0でしたが、ロボットの場合、ドアノブを正しく処理できなかった可能性があります。移動ロボットの場合の別の例は、アクションnorthです。ほとんどの場合、それはその北のグリッドセルに移動しますが、場合によっては、移動しすぎて次のセルに到達することもあります。
  4. 報酬:これらは、計画の指針として使用されます。グリッドの例の場合、特定のセルに移動したい場合があり、近づくと報酬が高くなります。ドアの例の場合、開いたドアは高い報酬を与える可能性があります。

MDPが定義されたら、Value IterationまたはPolicy Iteration実行することでポリシーを学習できます。ValueIterationまたはPolicy Iterationは、各状態の予想報酬を計算します。ポリシーは、状態ごとに与えられる最高の行うには(MDPモデルを与えられた)アクションを。

要約すると、MDPは、アクションが常に100%効果的であるとは限らない効率的なアクションのシーケンスを計画する場合に役立ちます。

あなたの質問

物事を予測するために使用できますか?

たとえば、回帰のような予測ではなく、計画と呼びます。

もしそうなら、どのようなものですか?

例を参照してください。

無限のデータの中からパターンを見つけることができますか?

MDPは強化学習を行い、教師なし学習に必要なパターン見つけるために使用されます。いいえ、無限のデータを処理することはできません。実際、ポリシーの検索の複雑さは、状態の数とともに指数関数的に増加します。|S|

このアルゴリズムは私にとって何ができますか。

例を参照してください。

MDPのアプリケーションの例

そして、さらにいくつかのモデルがあります。さらに興味深いモデルは、部分的に観測可能なマルコフ意思決定プロセスです。このプロセスでは、状態は完全には見えず、代わりに観測を使用して現在の状態を把握しますが、これはこの質問の範囲外です。

追加情報

将来の状態の条件付き確率分布が現在の状態にのみ依存し、以前の状態に依存しない(つまり、以前の状態のリストに依存しない)場合、確率過程はマルコフです(またはマルコフ特性を持ちます)。


2
これはおそらく、クロス検証でこれまで見た中で最も明確な答えでしょう。
隠れマルコフモデル

リンクを修正できる可能性はありますか?それらのいくつかは壊れているか、古くなっています。
コンピューター

だから、持っている任意のプロセスstatesactionstransition probabilitiesrewardsマルコフと呼ばれることになる定義?
スハイルグプタ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.