「翻訳と等価」と「翻訳と不変」の違いは何ですか


38

翻訳と同変と翻訳不変の違いを理解するのに苦労しています。

深層学習の本。MIT Press、2016(I. Goodfellow、A。Courville、およびY. Bengio)、畳み込みネットワークで見つけることができます:

  • [...]パラメータ共有の特定の形態は、というプロパティ持っている層を引き起こしequivariance翻訳への
  • [...]プーリングは、入力の小さな変換に対して表現をほぼ不変にするのに役立ちます

それらの間に違いはありますか、または用語は互換的に使用されていますか?


2
統計の昔、ピットマンの時代のように、不変量は等変量の意味で使用されていました。
西安

回答:


39

等分散と不変性は時々交換可能に使用されます。@ Xi'anが指摘したように、統計文献、たとえば不変推定量、特にピットマン推定の概念に用途があります。

ただし、両方の用語を分離しておくと、プレフィックスin-」のように不変ながら、privative(すべてでは「何の分散」を意味しない)されたequi-equivariantを変化させた「とは同様または同等の割合で」。言い換えると、一方は移動せず、もう一方は移動します。

単純な画像特徴から始めて、画像が空間ピクセル位置x my mで一意の最大m持ち、ここでこれが主要な分類特徴であるとします。つまり、画像とそのすべての翻訳は「同じ」です。分類の興味深い特性は、同じようにいくつかの歪んだバージョンを分類する能力であるI "Iすべてのベクトルによってインスタンスの翻訳のために、 U V バツmymあなたはv

最大値 mである不変m=m:値は同じです。その位置はバツmym=バツmあなたはymvにあり、等変です。つまり、歪みと「等しく」変化します。

等分散の数学で与えられる正確な定式化は、検討するオブジェクトと変換に依存するため、ここでは実際に最もよく使用される概念を好みます(そして理論的な観点から非難を得るかもしれません)。

ここで、翻訳(またはいくつかのより一般的なアクションは)グループの構造を備えることができるGg一つの特定の変換演算子です。関数または機能fは、クラス内のすべての画像について、および任意のgについてf g I = f I )の場合、G下では不変です。g

fg=f

意味のある方法Gの変換を反映する別の数学的構造またはアクション(多くの場合グループ)Gが存在する場合、同変になります。それぞれのためにそのようなことを言い換えると、グラム、あなたは1ユニーク持っグラムを"GG ggG、その結果を

fg=gf

変換のグループに関する上記の例では、ggは同じです(したがってG=G)。画像の整数変換は、最大位置のまったく同じ変換として反映されます。

別の一般的な定義は次のとおりです。

fg=gf

GGfgggg

多くの場合、人々は不変性という用語を使用します。これは、等分散の概念が不明であるか、他のすべての人が不変性を使用しているためです。

記録のために、他の関連する概念(特に数学と物理学)は共分散分散と呼ばれます、微分不変性ます。

さらに、少なくとも近似またはエンベロープ内での翻訳不変性は、いくつかの信号および画像処理ツールの探求でした。特に、過去25年間に、マルチレート(フィルターバンク)およびマルチスケール(ウェーブレットまたはピラミッド)変換が設計されました。たとえば、シフト不変、サイクル回転、静止、複雑、デュアルツリーのフードウェーブレット変換(2Dウェーブレットのレビュー用、マルチスケールの幾何学的表現のパノラマ)。ウェーブレットは、いくつかの離散的なスケール変動を吸収できます。すべてのこれらの(近似)不変性には、多くの場合、変換された係数の数の冗長性が伴います。しかし、それらはシフト不変またはシフト等価の特徴をもたらす可能性が高くなります。


4
すばらしいです!詳細な返信@Laurent Duval
Aamir

25

用語は異なります:

  • 翻訳と同等の意味は、入力フィーチャの翻訳が出力の同等の翻訳になることを意味します。したがって、入力のパターン0,3,2,0,0が出力の0,1,0,0になった場合、パターン0,0,3,2,0は0,0,1につながる可能性があります0

  • 翻訳に対して不変とは、入力フィーチャの翻訳が出力をまったく変更しないことを意味します。したがって、入力のパターン0,3,2,0,0が出力の0,1,0になった場合、パターン0,0,3,2,0も0,1,0になります。

畳み込みネットワークの特徴マップが有用であるためには、通常、両方のプロパティがある程度バランスよく必要です。等分散性により、ネットワークはさまざまな場所でエッジ、テクスチャ、形状検出を一般化できます。不変性により、検出されたフィーチャの正確な位置が重要になります。これらは、多くの画像処理タスクの2つの補完的な一般化タイプです。


翻訳された機能は、ある層で翻訳された出力を生成します。かなり翻訳されたオブジェクト全体が検出されることについて詳しく説明してください。CNNが異なる位置を含む画像でトレーニングされていなくても検出されるようですか?この場合、等分散は成立しますか?
ウラジミール

@VladimirLenin:私はこの質問に精緻化が必要だとは思わない、それは間違いなくOPがここで尋ねたものではない。可能であれば具体例を挙げて、別の質問をすることをお勧めします。視覚的に「全体のオブジェクト」が翻訳されたとしても、CNNの機能マップが予想と同じことを追跡しているわけではありません。
ニールスレーター

4

2セントを追加するだけ

fLL

  • fLは入力を潜在的意味空間にマッピングします
  • fLL

そして、次のプロパティを使用して実行されます

  • ConvLayer(Spatial 2D Convolution + NonLin eg ReLU)に関して、レイヤー入力のシフトはレイヤー出力のシフトを生成する(注:単一の畳み込み演算子ではなく、レイヤーに関する)空間的等分散
  • プーリング演算子に関する空間不変性(たとえば、最大プーリングは、空間的位置に関係なく、受容野の最大値を超えます)

フロントエンドに近いほど、潜在的な純粋にセマンティックドメインに近いL、画像の特定の意味がフィーチャの空間位置から独立していることが望ましいため、空間不変性がより重要になります。

フロントエンドで完全に接続されたレイヤーを使用すると、バックエンド構造に応じて、分類器がある程度フィーチャの位置に敏感になります。深くなるほど、変換不変演算子(プール)が使用されます

に示されている畳み込みニューラルネットワークにおける定量化変換不変性、それはデータセットのバイアス(データの増強に作用することがより効果的だ(...、プール、アーキテクチャので、深さ)の代わりに誘導性バイアスに作用する、CNN分類子翻訳不変性を向上させることがあること)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.