CNN、カーネル、およびスケール/回転不変性について

17

CNNに関して私を混乱させる質問がいくつかあります。
1）CNNを使用して抽出された特徴は、スケールと回転不変ですか？
2）データとの畳み込みに使用するカーネルは、すでに文献で定義されていますか？これらのカーネルの種類は何ですか？それはアプリケーションごとに異なりますか？

neural-networks deep-learning conv-neural-network

— アードナン・ファルークA
ソース

17

1）CNNを使用して抽出された特徴は、スケールおよび回転不変ですか？

CNN自体の機能は、スケールまたは回転不変ではありません。詳細については、「ディープラーニング」を参照してください。イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル。2016： http : //egrcc.github.io/docs/dl/deeplearningbook-convnets.pdf ; http://www.deeplearningbook.org/contents/convnets.html：

畳み込みは、スケールの変更や画像の回転など、他のいくつかの変換と自然に同等ではありません。これらの種類の変換を処理するには、他のメカニズムが必要です。

そのような不変条件を導入するのは、最大プーリング層です。

2）データとの畳み込みに使用するカーネルは、すでに文献で定義されていますか？これらのカーネルの種類は何ですか？それはアプリケーションごとに異なりますか？

カーネルは、ANNのトレーニングフェーズで学習されます。

— フランク・ダーノンクール
ソース

現在の最新技術の観点から詳細を話すことはできませんが、ポイント1のトピックでは、これが興味深いと感じました。

— GeoMatt22

@Franck 1）つまり、システムの回転を不変にするための特別な手順はありませんか？スケール不変量はどうですか？最大プーリングからスケール不変量を取得することは可能ですか？

— AadnanファルークA

2）カーネルは機能です。わかりませんでした。[ここ]（wildml.com/2015/11/…）彼らは「たとえば、画像分類では、CNNは最初のレイヤーの生のピクセルからエッジを検出することを学び、次にエッジを使用して、次に、これらの形状を使用して、上位層の顔の形状などの上位レベルの特徴を阻止します。最後の層は、これらの高度な特徴を使用する分類子です。」

— AadnanファルークA

2

あなたが話しているプーリングはクロスチャネルプーリングと呼ばれ、通常「空間プーリング」（異なる入力チャネルではなく）をプールする「最大プーリング」について話すときに参照されるタイプのプーリングではないことに注意してください）。

— Soltius

1

これは、最大プール層を持たないモデル（現在のSOTAアーキテクチャのほとんどはプーリングを使用しない）が完全にスケール依存であることを意味しますか？

— -shubhamgoel27

5

私はあなたを混乱させるいくつかのことがあると思うので、最初に最初のものから。

$x[n]$ $h[n]$ $x[n]$ $h[n]$ $y[n] = (x \star h)[n]$

y [n] = \sum_{m = - \infty}^{\infty} バツ [m] h [n - m]

$y[n] = \sum_{m=-\infty}^{\infty}x[m] \ h[n-m]$

上記は1次元信号の場合ですが、画像についても同じことが言えます。画像は単なる2次元信号です。その場合、方程式は次のようになります。

I_{n e w} [r, c] = \sum_{u = - \infty}^{\infty} \sum_{v = - \infty}^{\infty} I_{o l d} [u, v] k [r - u, c - v]

$I_{new}[r,c] = \sum_{u=-\infty}^{\infty}\sum_{v=-\infty}^{\infty} I_{old}[u,v] \ k[r-u, c-v]$

絵で、これは何が起こっているかです：

とにかく、心に留めておくべきことは、カーネルが、ディープニューラルネットワーク（DNN）のトレーニング中に実際に学習することです。カーネルは、入力を畳み込むものになります。DNNはカーネルを学習し、イメージ（または前のイメージ）の特定のファセットを引き出します。これは、ターゲットの目標の損失を下げるのに適しています。

これは理解するべき最初の重要なポイントです。伝統的に人々はカーネルを設計していましたが、ディープラーニングでは、ネットワークに最適なカーネルを決定させました。ただし、指定する1つのことは、カーネルの次元です。（これは、5x5、3x3などのハイパーパラメーターと呼ばれます）。

— タリン・ジヤエ
ソース

いい説明。質問の最初の部分に答えてください。CNNについては、スケール/回転は不変ですか？

— AadnanファルークA

1

@AadnanFarooqA今夜そうします。

— タリンジヤエ

2

カプセルネットを提案しているGeoffrey Hintonを含む多くの著者は、この問題を定性的に解決しようとしています。この問題に定量的に対処しようとします。CNNですべての畳み込みカーネルを対称にする（8次の二面対称[Dih4]または90度増分回転対称など）ことにより、各畳み込み隠れ層の入力ベクトルと結果ベクトルのプラットフォームを提供します同じ対称特性（つまり、Dih4または90インクリメント回転対称など）と同期します。さらに、最初の平坦化レイヤーで各フィルターに同じ対称プロパティを持たせることにより（つまり、完全に接続されているが同じ対称パターンで共有する）、各ノードの結果値は定量的に同一であり、CNN出力ベクトルは同じになります同様に。変換同一CNN（またはTI-CNN-1）と呼びました。CNN（TI-CNN-2）内で対称入力または操作を使用して、変換が同一のCNNを構築できる他の方法もあります。TI-CNNに基づいて、ギア付き回転同一CNN（GRI-CNN）は、入力ベクトルを小さなステップ角だけ回転させた複数のTI-CNNによって構築できます。さらに、複数のGRI-CNNをさまざまな変換済み入力ベクトルと組み合わせることにより、定量的に同一のCNNを構成することもできます。

「対称要素演算子による変形的に同一で不変の畳み込みニューラルネットワーク」 https://arxiv.org/abs/1806.03636（2018年 6月）
「対称演算または入力ベクトルの組み合わせによる、変形的に同一で不変の畳み込みニューラルネットワーク」 https://arxiv.org/abs/1807.11156（2018年 7月）
「ギア付き回転同一および不変畳み込みニューラルネットワークシステム」 https://arxiv.org/abs/1808.01280（2018年 8月）

— ベン・ロー
ソース

-1

最大プーリングは、ストライドサイズより小さい変換と回転に対してのみ、並進および回転の不変性を予約できると思います。大きい場合、不変性なし

— ファインマン
ソース

1

少し拡大してもらえますか？このサイトでの回答は、これよりももう少し詳しくなることをお勧めします（現在、これはコメントに見えます）。ありがとうございました！

— アントワーヌ