これは、ニューラルネットワークの経験が豊富な人にはばかげているように聞こえるかもしれませんが、私を困らせます...
つまり、初期の重みをランダム化すると、訓練されたネットワークの外観に近い結果が得られる可能性がありますが、適切な重みの範囲の0.5またはその他の平均値とは正反対の場合もあります。値は適切なデフォルト設定のように聞こえます...
ニューロンの初期の重みが、それらすべてに対して0.5ではなくランダム化されているのはなぜですか?
これは、ニューラルネットワークの経験が豊富な人にはばかげているように聞こえるかもしれませんが、私を困らせます...
つまり、初期の重みをランダム化すると、訓練されたネットワークの外観に近い結果が得られる可能性がありますが、適切な重みの範囲の0.5またはその他の平均値とは正反対の場合もあります。値は適切なデフォルト設定のように聞こえます...
ニューロンの初期の重みが、それらすべてに対して0.5ではなくランダム化されているのはなぜですか?
回答:
ニューラルネットワークの初期の重みはランダムに初期化されます。これは、ニューラルネットワークのトレーニングに一般的に使用される勾配ベースの方法が、すべての重みが同じ値に初期化されるとうまく機能しないためです。ニューラルネットワークをトレーニングするすべての方法が勾配ベースであるとは限りませんが、ほとんどがそうであり、ニューラルネットワークを同じ値に初期化すると、ネットワークが最適なソリューションに収束するまでに時間がかかることがいくつかのケースで示されています。また、ニューラルネットワークがローカルミニマで動かなくなったために再トレーニングしたい場合、同じローカルミニマで動かなくなります。上記の理由により、初期の重みを一定の値に設定していません。
「対称性の破れ」の問題があるため、すべてを0.5に割り当てないでください。
http://www.deeplearningbook.org/contents/optimization.html
おそらく、確実に知られている唯一の特性は、初期パラメータが異なるユニット間の「対称性を破る」必要があるということです。同じアクティブ化機能を持つ2つの非表示ユニットが同じ入力に接続されている場合、これらのユニットには異なる初期パラメーターが必要です。。それらが同じ初期パラメーターを持っている場合、確定的コストとモデルに適用される確定的学習アルゴリズムは、これらの両方のユニットを常に同じ方法で更新します。モデルまたはトレーニングアルゴリズムが確率論を使用して異なるユニットの異なる更新を計算できる場合でも(たとえば、ドロップアウトを使用してトレーニングする場合)、通常は各ユニットを初期化して、他のすべてのユニットとは異なる関数を計算するのが最善です。これは、順方向伝搬のヌルスペースで入力パターンが失われず、逆方向伝搬のヌルスペースで勾配パターンが失われないようにするのに役立ちます。
それは非常に深い質問です。overparameterized深いネットワークのための勾配降下の収束の証明と、最近の一連の論文は、(例えば、ありましたグラデーション降下がディープニューラルネットワークのグローバル・ミニマ検索し、オーバーパラメータ化を介した深い学習のためのAの収束理論や確率的勾配降下最適化しオーバーパラメータディープをReLU Networks)。それらのすべては、重みのランダムなガウス分布に関する証明を条件付けます。証明の重要性は2つの要因に依存します。
ランダムな重みは、ReLUを統計的に圧縮マッピングします(線形変換まで)
ランダムな重みは、入力分布の入力の分離を保持します。つまり、入力サンプルが区別可能な場合、ネットワークの伝播によってそれらを区別できなくなります
これらのプロパティは、確定的行列で再現するのが非常に困難であり、確定的行列NULLスペース(敵対的な例のドメイン)で再現可能であっても、メソッドを非実用的にする可能性があり、勾配降下中にこれらのプロパティをより重要に保存すると、メソッドが実用的でなくなる可能性があります。しかし、全体としてそれは非常に困難ですが不可能ではなく、その方向でいくつかの研究を正当化するかもしれません。同様の状況で、決定論的行列の制限付きアイソメトリプロパティの結果がいくつかありました。圧縮センシング。