で週5講義ノートのためのアンドリュー・ウのコーセラ機械学習クラス、以下の式が値算出に与えられた初期化するために使用さΘをランダムな値で:
では、運動、さらに明確化が与えられます。
を選択するための1つの効果的な戦略 は、ネットワーク内のユニット数に基づいて決定することです。ϵ i n i tの適切な選択 はϵ i n i t = √、ここでLin=slおよびLout=sl+1は、Θ(l)に隣接する層のユニット数です。
なぜ定数ですかここで 6個使用?なんで √、 √または √?
で週5講義ノートのためのアンドリュー・ウのコーセラ機械学習クラス、以下の式が値算出に与えられた初期化するために使用さΘをランダムな値で:
では、運動、さらに明確化が与えられます。
を選択するための1つの効果的な戦略 は、ネットワーク内のユニット数に基づいて決定することです。ϵ i n i tの適切な選択 はϵ i n i t = √、ここでLin=slおよびLout=sl+1は、Θ(l)に隣接する層のユニット数です。
なぜ定数ですかここで 6個使用?なんで √、 √または √?
回答:
これは、Xavier GlorotとYoshua Bengioによるディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解することによる、 Xavierの正規化された初期化(Keras、Cafeなどのいくつかのディープラーニングフレームワークで実装)であると思います。
リンクされた論文の式12、15、16を参照してください。これらは式12を満たすことを目的としています
とが均一RVの分散あるε 2 / 3(平均値がゼロである、PDF = 1 /(2 ε )分散そう= ∫ ε - ε X 2 1