一部のチュートリアルで、「Xavier」の重みの初期化(論文:ディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解する)がニューラルネットワークの重みを初期化する効率的な方法であると述べたことがわかりました。
完全に接続されたレイヤーの場合、これらのチュートリアルには経験則がありました。
ここで、は、正規分布で初期化されたレイヤーの重みの分散で、、は、親と現在のレイヤーのニューロンの量です。
畳み込み層にも同様の経験則がありますか?
畳み込み層の重みを初期化するのに最適な方法を見つけるのに苦労しています。たとえば、重みの形状がであり(5, 5, 3, 8)
、カーネルサイズがであるレイヤーでは5x5
、3つの入力チャネル(RGB入力)をフィルタリングし、8
特徴マップを作成します... 3
入力ニューロンの量と見なされますか?またはむしろ75 = 5*5*3
、入力は5x5
各カラーチャネルのパッチなので、
問題を明確にする具体的な回答か、重みの適切な初期化を見つけ、できればソースをリンクする一般的なプロセスを説明する、より一般的な回答の両方を受け入れます。