均一な初期化で通常の初期化（HeまたはGlorot）を使用する場合また、バッチ正規化の影響は何ですか？

51

Residual Network（ResNet）により、彼は通常の初期化が一般的になったことを知っていました。ResNetでは、He通常の初期化が使用されますが~~、最初の層はHeの初期化を使用します。~~

ResNetペーパーと「Delving Deep into Rectifiers」ペーパー（He初期化ペーパー）を調べましたが、通常の初期化と均一な初期化についての言及はありません。

また：

バッチ正規化により、はるかに高い学習率を使用でき、初期化にあまり注意を払う必要がなくなります。

Batch Normalization論文の要約では、Batch Normalizationを使用すると、初期化にあまり注意を払わなくて済むと言われています。

~~ResNet自体は、通常の初期化と均一な初期化のどちらを使用するか（均一な初期化ではなく）を常に考慮しています。~~

そう：

均一な初期化ではなく、（HeまたはGlorot）正規分布初期化を使用する場合
バッチ正規化による正規分布初期化効果とは何ですか？

脇のメモ：

Batch Normalizationで通常のinitを使用することは韻を踏んでいますが、この事実を裏付ける論文は見つかりませんでした。
Resnetは、Glorot initよりもHe initを使用することを知っていました。なぜなら、彼はinitが深いネットワークでより良い結果をもたらすからです。
Glorot init対He initについて理解しました。
私の質問は、Normal vs Uniform initについてです。

neural-network deep-learning normalization

— リルト
ソース

34

通常の初期化と均一な初期化は、実際にはかなり不明瞭なようです。

GlorotとHeの初期化ペーパーのみを参照する場合、どちらも同様の理論的分析を使用します。つまり、初期パラメーターが引き出される分布に対して良好な分散を見つけます。この分散は、使用されるアクティベーション関数に適合し、分布のタイプを明示的に考慮することなく導出されます。そのため、それらの理論的結論は、決定された分散のあらゆるタイプの分布に当てはまります。実際、Glorotの論文では均一な分布が使用されていますが、Heの論文ではガウス分布が選択されています。彼の論文でこの選択について与えられた唯一の「説明」は：

最近の深いCNNは、ガウス分布から引き出されたランダムな重みによって主に初期化されます

AlexNet論文を参照。実際、Glorotの初期化より少し遅れてリリースされましたが、正規分布を使用する正当性はありません。

実際、Keras問題トラッカーに関する議論では、それらは少し混乱しているように見え、基本的には好みの問題にすぎません...議論の1つとして、均一分布とガウス分布を使用してGlorotの初期化を比較する小さなベンチマークがあります。最終的には、ユニフォームが勝つようですが、それは本当に明確ではありません。

オリジナルのResNet論文で、すべての層にガウス He initを使用したとしか書かれておらず、最初の層に均一なHe initを使用したことがどこに書かれているかわかりませんでした。（おそらく、これへの参照を共有できますか？）

バッチ正規化でのガウス初期化の使用に関しては、BNでは、最適化プロセスは初期化の影響を受けにくいため、これは単なる慣例です。

— トロリウル
ソース

誤解しています。ResNetは統一された初期化をまったく使用しないのはあなたです。私は訂正します。

— リルート

0

ハイパーパラメーターを実際に読んでください！パートII —重量初期化子

— Rocksyne
ソース

1

リンクだけを投稿しないでください。しばらくすると、どのリンクも機能しなくなり、新しい読者は答えを確認できなくなります。リンクを投稿できますが、最も重要な部分の要約も常にテキストとして追加してください。

— タソス

@Tasosのコメントはよく知られています。要約する情報が多すぎたため、代わりにリンクを投稿し、リンクが破損しているという点を説明します。ありがとう。

— ロックシン

均一な初期化で通常の初期化（HeまたはGlorot）を使用する場合 また、バッチ正規化の影響は何ですか？

均一な初期化で通常の初期化（HeまたはGlorot）を使用する場合また、バッチ正規化の影響は何ですか？