DeepMindのAlphaGo ZeroとAlphaZeroの論文では、モンテカルロツリー検索でルートノード(ボード状態)からのアクションの以前の確率にディリクレノイズを追加することについて説明しています。
追加の探査は、ルートノードに事前確率にノイズディリクレを添加することによって達成される、具体的にはP (S 、)= (1 - ε )P A + ε η A、ここでη 〜ディレクトリ(0.03 )およびε = 0.25 ; このノイズにより、すべての動きが試行される可能性がありますが、検索は依然として悪い動きを無効にする可能性があります。
(AlphaGo Zero)
そして:
ディリクレノイズがルートノードの以前の確率に追加されました。これは、典型的な位置での法的な動きのおおよその数に反比例して、α = { 0.3の値にスケーリングされました。チェス、将棋、囲碁はそれぞれ 0.03 }。
(AlphaZero)
私が理解していない2つのこと:
P(s, a)
ある次元ベクトル。あるディレクトリ(α )とディリクレ分布のための速記Nパラメータ値と各αは?私は多項分布の前の共役としてディリクレに出くわしました。なぜここで選ばれたのですか?
コンテキストの場合、P(s, a)
は、特定の状態/アクションのPUCT(多項式の上方信頼ツリー、上方信頼限界のバリアント)計算の1つのコンポーネントにすぎません。これは、MCTS中に兄弟間で特定のアクションが選択された回数の定数とメトリックによってスケーリングされ、推定アクション値に追加されますQ(s, a)
。
PUCT(s, a) = Q(s, a) + U(s, a)
。