sqrt(6)を使用してニューラルネットワークのランダムな初期化のイプシロンを計算するのはなぜですか?


8

週5講義ノートのためのアンドリュー・ウのコーセラ機械学習クラス、以下の式が値算出に与えられた初期化するために使用さΘをランダムな値で:εΘ

ランダム初期化のためのepsilon-initを計算するためのForumla

では、運動、さらに明確化が与えられます。

を選択するための1つの効果的な戦略 は、ネットワーク内のユニット数に基づいて決定することです。ϵ i n i tの適切な選択 はϵ i n i t = εtεt、ここでLin=slおよびLout=sl+1は、Θl)に隣接する層のユニット数です。εt=6LLoあなたtL=slLoあなたt=sl+1Θl

なぜ定数ですかここで 6個使用?なんで65または76.1

回答:


4

これは、Xavier GlorotとYoshua Bengioによるディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解することによる、 Xavierの正規化された初期化(Keras、Cafeなどのいくつかのディープラーニングフレームワークで実装)であると思います。

リンクされた論文の式12、15、16を参照してください。これらは式12を満たすことを目的としています

Var[W]=2++1

とが均一RVの分散あるε 2 / 3(平均値がゼロである、PDF = 1 /2 ε 分散そう= ε - ε X 2 1[εε]ε2/1/2ε=εεバツ212εdバツ


うーん、それで√を使う理由62

+/- xの一様確率変数の分散の式にイプシロンを挿入すると、何が得られますか?
seanv507 2017

[εε]バツ2/

1
ユニフォームRVの分散の説明を追加...
seanv507
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.