回答:
私は数学なしで説明をしようとしています。この答えの一部は私がMAB問題に関する別の質問への答えで作ったいくつかのポイントから繰り返されます。
戦略的なトレードオフマルチアーム盗賊の問題で:でマルチアーム盗賊の問題ギャンブラーは、各ラウンド1「山賊」を果たしているし、彼の合計を最大化しようとする試みは、ラウンドの一定数を超えるリターンを期待。各盗賊の期待収益率は問題のいくつかの未知のパラメーターによって記述されるため、各ラウンドでより多くの結果を観察すると、これらの未知のパラメーターに関するより多くの情報が得られるため、各盗賊の予測収益率について。プレイの各ラウンド(最後のラウンドを除く)では、MABの問題は、2つの目的の間でのギャンブラーによる戦略的なトレードオフを伴います。
即時の報酬:各ラウンドで、彼はこのラウンドで高い期待報酬を与える分布を選択したいと思います。これは、彼が(現在)平均報酬が高いと推測する分布を好みます。
将来の報酬(情報獲得の影響を受ける):一方、彼は、分布に関する情報(特に、他の人ほどプレイしていないもの)を獲得することにより、真の期待報酬の知識を洗練させたいと考えています。将来のラウンドで彼の選択を改善します。
これら2つのことの相対的な重要性はトレードオフを決定し、この相対的な重要性はいくつかの要因の影響を受けます。たとえば、問題に残っているラウンドの数が少ない場合、将来の試行の推論は比較的価値が低くなりますが、残りのラウンドの数が多い場合、将来の報酬の推論は比較的価値があります。そのため、ギャンブラーは、各強盗の予想報酬を決定する未知のパラメーターについてさらに学ぶために、現在のラウンドで即時報酬を最大化することにどれだけ集中したいか、そしてこれからどれだけ逸脱したいかを考慮する必要があります。
トンプソンサンプリング:トンプソンサンプリングの基本的な考え方は、各ラウンドで、未知のパラメーターに関する事後信念の形式であるマシンの既存の知識を取得し、この事後分布からパラメーターを「サンプリング」することです。このサンプリングされたパラメーターは、各マシンに期待される報酬のセットを生成します。そして、そのサンプリングされたパラメーターの下で、最も期待されるリターンを持つものに賭けます。
Prima facie、Thompsonサンプリングスキームは、各ラウンドでの即時の期待収益を最大化する試みを含むようです(パラメーターのサンプリング後、この最大化ステップを含むため)。ただし、後方からのパラメーターのランダムサンプリングを含むため、スキームには暗黙的な現在の報酬の最大化のバリエーションと、より多くの情報の検索。ほとんどの場合、後部の主要部分のどこかにあるパラメーター「サンプル」を取得し、マシンの選択は、即時報酬の最大化にほぼ近似します。ただし、事後分布の裾にあるパラメーター値をランダムにサンプリングする場合があります。その場合、即時の報酬を最大化しないマシンを選択することになります。つまり、これは「検索「将来の報酬を支援します。
トンプソンスキームには、情報を取得するにつれて「検索」を減らす傾向があるという優れた特性もあります。これは、情報を取得するにつれて検索に焦点を合わせたくないという問題の望ましい戦略的トレードオフを模倣します。より多くのラウンドをプレイし、より多くのデータを取得するにつれて、事後は真のパラメーター値に近く収束するため、トンプソンスキームのランダムな「サンプリング」は、パラメーター値の周囲により密に詰め込まれ、即時の報酬。したがって、このスキームには暗黙のうちに、情報がほとんどない状態で「検索指向」になり、データが大量にある場合に「検索指向」になります。
さて、これを言った上で、トンプソンのサンプリングスキームの1つの明らかな欠点は、MAB問題に残っているラウンドの数を考慮していないことです。このスキームは、無限ラウンドのゲームに基づいて策定されることもありますが、この場合は問題ではありません。ただし、有限ラウンドのMAB問題では、残りのラウンドの数を考慮して、将来のラウンドの数が減るにつれて「検索」を減らすことが望ましいです。(特に、最後のラウンドでの最適なプレイは、検索を完全に無視し、最も高い期待されるリターンを持つ山賊に賭けることです。)トンプソンスキームはこれを行わないため、ある意味で有限ラウンドゲームをプレイします。特定の場合には明らかに最適ではありません。
私はそれを試してみます、私はあなたがそれを好き願っています!あなたを怖がらせるかもしれないいくつかの数式があります。私はできる限り簡単な方法でそれらを説明するために最善を尽くすからです。
これらは2つの式です。
TL; DR
トンプソンサンプリングにより、
可能性??
その奇妙な円はどうですか??
、コンテキスト+アクションが報酬にどのように関連しているかを知っており、最適なアクションを実行するのは簡単です。
それでは、最大の報酬を得ることができるように、これらのモデルパラメーターをどのように知ることができますか?
この後部については何も言っていません
トムソンサンプリングは、これらすべての不確実性をどのように処理することを提案していますか?
Thomson Samplingは非常に単純なことを提案しています。後部からランダムなモデルパラメーターを選択し、アクションを実行して何が起こるかを観察するだけです。たとえば、一度も外に出たことがない場合、「unrain-when-rain-on-head」パラメーターは何でもかまいません。だから私たちはただ一つを選んで、雨が頭に降ると本当に不幸になると思います。雨が降っている(コンテキスト)ので、傘(アクション)を使用します。これは、モデルパラメーターが、これが最大の報酬を得ることができる方法であると示しているためです。実際、雨の中を傘で歩くと少し不機嫌になるが、実際には不幸ではないことがわかります。このことから、雨+傘は不機嫌であることを学びます。次に雨が降ったときは、雨が頭に降ったときに何が起こるかについて、ランダムな考えを選び直します。今回は、まったく気にしないということかもしれません。しかしながら、目的地まで半分ほど下がったら、濡れてしまって、傘なしの雨は本当にひどいことを学びます。これにより、頭の上の不幸に関する不確実性が減少します。
これはとても簡単に聞こえます!!
ええ、それほど複雑ではありません。難しい部分は、後のモデルパラメーターからサンプリングすることです。すべてのモデルパラメーターの分布を取得して維持することは、特定の問題にも適しています。しかし...それは間違いなく実行可能です:)。