AlphaGoのペーパーのロールアウトポリシーとは何ですか？

論文はこちらです。

ロールアウトポリシー...は、高速でインクリメンタルに計算されたローカルパターンベースの機能に基づく線形のソフトマックスポリシーです...

ロールアウトポリシーとは何か、およびそれが移動を選択するポリシーネットワークとどのように関連するのかわかりません。簡単な説明はありますか？

— こんにちは世界
ソース

ペーパーはペイウォールの背後にあるようです...

— Vladislavs Dovgalecs

@xeonどうしようもない。私は論文に完全にアクセスできますが、ここにアップロードすることはできません（著作権法）。誰か他の人がコピーを持っているなら、たぶんググって？

— HelloWorld 2016年

@ xeonairesearch.com

— content

政策ネットワークは、ゲーム状態ときに、可能な動きに関する確率分布を決定するようです。プログラムがゲームツリーを検索するときは、ランダムに検索し、はこの検索をどのように行うかを決定します。この機能が、強力なプレーヤーが行う可能性が高い良い動きにプログラムを「導く」ことを期待しています。これは理にかなっています。なぜなら、ゲームツリーを検索すると、現在のボードの位置をインテリジェントな相手と比較して評価するときに、間違いで始まる分岐の関連性が低くなるからです。 $p(a \mid s)$ $a$ $s$ $p$

ロールアウトポリシー（バックギャモンから「ロールアウト」という用語を借用したと思います）が線形のソフトマックス関数であると彼らが言うとき、彼らはロジスティック回帰で使用されるシグモイド関数の一般化を指しています。この関数は次の形式を取ります

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

ここで、は現在のボード位置の関数であるベクトルであり（論文によると、線形ソフトマックスはポリシーネットワークの最後のステップでのみ使用されます）、は、ポリシーの確率を決定する重みのベクトルですネットワークはアクションを選択します。 $x$ $\beta_i$ $a_i$

— DSAXTON
ソース