講義/ AlphaGo / AlphaZeroの本


8

AlphaGoがどのように対応するかに非常に興味があります。AlphaZeroは機能します。私には、関連するGoogleペーパーは非常に密度が高く、読みにくいようです。

すべてがどのように機能するかを技術レベルで説明する教科書や講義はありますか?つまり、ニューラルネットワーク/ディープラーニングから始まり、モンテカルロツリー検索はAlphaGo / AlphaZeroに到達するまでですか?

私はコンピュータサイエンスの修士号を持っていますが、人工知能や機械学習を扱ったことはありません。

今のところ、すべての関連情報が散らばっているように見え、AlphaGoの理解に関連するものについておそらく10%しか含まれていない機械学習に関する(オンライン)講義を聞く時間はありません...

誰かが私を正しい方向に向けることができますか?



2
リンクに感謝しますが、そのプレゼンテーションは本当に表面的です
ndbd

回答:


10

編集

コメント内の@unutbuのリンクは、入門としてよく読まれています。


AlphaZeroをしっかり理解するには、おそらく定量的な学位(PhD?)が必要です。AlphaZeroの短期集中コースを求めていますか?

あなたがかなりの時間を費やさない限り、私が言うことは何もうまくいきません。すべてをカバーできる本はありません。あなたは一生懸命働く必要があるでしょう。

やってみましょう。AlphaZeroのクラッシュコース。

1.機械学習の基本的な理解

無数の本。時間がない場合は、Andrew Ng教授のコースラでの機械学習コースをお勧めします。

キーワード:トレーニングセット、テストセット、確率的勾配降下法、学習率、GPU、コスト関数、クロスエントロピー

2.ディープニュートラルネットワーク

ニューラルネットワークについて理解する必要があります。本気なら、イアン・グッドフェロー教授のディープラーニング本をお勧めします。時間がない場合は、CourseraのAndrew Ng教授のオンラインコースをもう一度フォローしてください。すべての章を通過する必要はありません(ただし、そうする必要があります!)。

YouTubeにはニューラルネットワークの簡単な紹介がたくさんあります。ぜひお試しください。

キーワード:ニューロン、レイヤー、重み、バイアス、ミニバッチ、アクティベーション

3.モンテカルロツリー検索

モンテカルロとは何かを理解する必要があります。モンテカルロに関する本はAmazonのいたるところにあります。時間がない場合は、MCTSに関するウィキペディアを読んでください。

キーワード:サンプリング、拡張、シミュレーション、ロールアウト、バックプロパゲーション

3.強化学習

キーワード:政策勾配、勾配降下、学習率

5.チェス盤の表現

紙自体は最も単純です。モデルは、ボードの状態(ピースなど)を一連のワンホットエンコーディングバイナリ値としてエンコードします。

6. MCTSとアルファベータ

ここに画像の説明を入力してください


4
詳細な回答をありがとうございました。残念ながら、わかりやすいガイドはないようです。私の要点はもちろん、私がニューラルネットワークについて知っているCSメジャーとしてですが、Alpha *で使用されていた特定の種類のディープネットワークについてではありません。BerndBrügmannによって紹介されたMCTSについては大まかに知っていますが、Alpha *に対する特定の種類の適応は知りません。強化学習についても同じです。たとえば、MLに関するAndrew Ngのコースは非常に幅広く、PCA / LDAなどの内容をカバーしていますが、私の知る限り、ここではまったく無関係です。しかし、私はそれを自分で解決する必要があると思います;-)
ndbd '11

7

コメントするほどの評判はありませんが、AlphaGo Zero Explained In One Diagramは非常に優れています。

私もこのチュートリアルが本当に好きです。

最初のリンクは、ノードを作成(展開)するタイミングを記述していないことに注意してください。その部分は少し混乱することがあります。このリンクが役立つ場合があります。


それは良い。私はそれが好きです。+1。
SmallChess

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.