[この質問はスタックオーバーフローでも発生しました]
要するに質問
私は畳み込みニューラルネットワークを研究していますが、これらのネットワークはすべての入力ニューロン(ピクセル/パラメーター)を同等に処理するとは限りません。入力画像に畳み込みを適用する深いネットワーク(多くのレイヤー)があるとします。画像の「中間」にあるニューロンには、多くのより深い層のニューロンへの多くのユニークな経路があります。つまり、中間のニューロンの小さな変動が出力に強い影響を与えます。しかしながら、画像のエッジでのニューロンしか持た(の順序または、正確な実装に応じて、方法1それらの情報はグラフを通って流れる経路)。これらは「過少表示」されているようです。
エッジニューロンのこの区別は、ネットワークの深さ(層の数)に応じて指数関数的にスケーリングするため、私はこれを心配しています。最大プーリング層を追加しても指数関数的な増加は止まりません。完全な接続のみがすべてのニューロンを同じ足場にします。しかし、私は自分の推論が正しいと確信していないので、私の質問は次のとおりです。
- この効果が深い畳み込みネットワークで発生するのは正しいですか?
- これについて何か理論はありますか、それは文献で言及されたことがありますか?
- この影響を克服する方法はありますか?
これで十分な情報が得られるかどうかわからないので、問題の説明と、これが懸念事項であると考える理由についてもう少し詳しく説明します。
より詳細な説明
入力として画像を受け取るディープニューラルネットワークがあるとします。画像にピクセルの畳み込みフィルターを適用し、そのたびに畳み込みウィンドウを4ピクセルずつシフトするとします。これは、入力のすべてのニューロンが、活性化をレイヤー2の16 × 16 = 265ニューロンに送信することを意味します。これらのニューロンはそれぞれ、その活性化を別の265に送信し、最上位のニューロンが265 2個の出力ニューロンで表されるようにします。
ただし、これはエッジのニューロンには当てはまりません。これらは少数の畳み込みウィンドウでのみ表される可能性があり、そのため、次のレイヤーでニューロンのみをアクティブにします。エッジに沿ってミラーリングするなどのトリックを使用しても、これは役に立ちません。投影される第2層ニューロンはまだエッジにあります。エッジニューロンも同様です)。ご覧のように、この不一致は層の数とともに指数関数的に増加します。
問題を視覚化するために画像を作成しました。これはここにあります(投稿自体に画像を含めることはできません)。このネットワークには、サイズ畳み込みウィンドウがあります。ニューロンの隣の数字は、最深ニューロンまでの経路の数を示しています。画像はパスカルの三角形を連想させます。
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0
なぜこれが問題なのですか?
この効果は一見問題ではないようです。原則として、ネットワークが機能するように重みを自動的に調整する必要があります。さらに、画像のエッジは、画像認識ではとにかくそれほど重要ではありません。この効果は、日常の画像認識テストでは目立たないかもしれませんが、次の2つの理由で依然として懸念されます。1。他のアプリケーションへの一般化、 2。非常に深いネットワークの場合に発生する問題。
1.音声認識や音声認識など、真ん中のニューロンが最も重要であるとは言えない他のアプリケーションがあるかもしれません。畳み込みの適用はこの分野でよく行われますが、私が関心を持っている効果について言及している論文を見つけることができませんでした。
2.非常に深いネットワークが気づく指数関数的に中枢ニューロンは、大きさの複数の順序によって過剰に存在することができることを意味する境界ニューロンの識別、の悪い効果を(我々は想像の層を、上記の例では、与えること265の10の方法中枢ニューロンを情報を投影できます)。レイヤーの数を増やすと、重みがこの効果を適切に補正できない限界に到達することになります。
ここで、すべてのニューロンをわずかに摂動させたとします。中央ニューロンは、エッジニューロンと比較して、出力を数桁大きく変化させます。一般的なアプリケーションや、非常に深いネットワークの場合、問題の回避方法を見つける必要があると思いますか?