k武装バンディット問題の信頼限界の上限を求める式に出くわしました。
ここで、はこの特定の盗賊のために持っているサンプルの量であり、はすべての盗賊から持っているサンプルの総量です。モンテカルロツリー検索でも同じアルゴリズムが使用され、信頼限界の上限が取得されます。N i
私は信頼限界の上限が何であるかを非常に明確に理解していますが、私が理解していないのは、この公式がどこから来たかです。私はいくつかの場所でオンラインを調べてみましたが、この式がどのように導出されるかについての明確な説明は見つかりませんでした。誰かがこの式がどこから来たかを説明できますか?統計の背景がよくないと思います。