機械学習の信頼上限


8

k武装バンディット問題の信頼限界の上限を求める式に出くわしました。

clnNini

ここで、はこの特定の盗賊のために持っているサンプルの量であり、はすべての盗賊から持っているサンプルの総量です。モンテカルロツリー検索でも同じアルゴリズムが使用され、信頼限界の上限が取得されます。N iniNi

私は信頼限界の上限が何であるかを非常に明確に理解していますが、私が理解していないのは、この公式がどこから来たかです。私はいくつかの場所でオンラインを調べてみましたが、この式がどのように導出されるかについての明確な説明は見つかりませんでした。誰かがこの式がどこから来たかを説明できますか?統計の背景がよくないと思います。


私は個人的にbanditalgs.com/2016/09/18/the-upper-confidence-bound-algorithmに適切な説明が含まれていることを発見しました。重い計算も含まれていますが、私の考えではより重い方程式の一部をスキップしても、十分に理解することができます。直感と、より単純な方程式のいくつかをお読みください
デニス・ソマーズ

回答:


5

あなたが持っているものは、一般的に探査用語と呼ばれています。信頼限界の上限は、経験的平均にこの探索項を加えたものです。

各用語を個別に検討してみましょう:

cは定数で、ユーザーは探索/探索のトレードオフを設定できます。理論的な結果のために、それはしばしば当面の問題のために最適化されます(例えば、ガウスの事前分布を持つk武装盗賊)。

nii1/niは、アクションサンプルの後の事後標準偏差に比例します。本質的にこれは、腕をより頻繁に引っ張るほど、腕についての知識が少なくなることを示しています。nii

NIln(Ni)すると、探索が早くなりすぎないようになります。以下のよう非常に大きくなると、サンプルの分散は、我々は完全に探検決して停止しないことを確実にするために補償する必要があることを十分に小さななります。技術的な計算のほとんどは、が十分な(ただし多すぎない)補償であることを示すことです。Niln(Ni)

より技術的な説明については、Auer et al。良い出発点です。


末尾のリンクが機能しません。
チェスプログラマー2018年

今すぐ機能するはずですが、申し訳ありません
コンボ

2

これは、ヘッディングの不等式に由来します。これは、有界の独立確率変数の合計がその期待値から一定量以上逸脱する確率に上限を提供します。Hoeffdingの不等式の詳細については、https://en.wikipedia.org/wiki/Hoeffding%27s_inequalityを参照してください。バンディットの設定でUCB1に関連する詳細な説明については、元のUCTペーパーの式(3)に関するテキストを参照してくださいhttp://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.