あなたは正しい軌道に乗っています。
不変性とは、外観が何らかの方法で変化する場合でも、オブジェクトをオブジェクトとして認識できることを意味します。これは、ビューアー/カメラとオブジェクトの相対的な位置など、視覚入力の仕様の変更全体でオブジェクトのアイデンティティ、カテゴリなどを保持するため、一般に良いことです。
以下の画像には、同じ彫像の多くのビューが含まれています。あなた(および十分に訓練されたニューラルネットワーク)は、実際のピクセル値がまったく異なっていても、すべての画像に同じオブジェクトが表示されることを認識できます。
ここでの翻訳は、視覚において特定の意味を持ち、ジオメトリから借用されていることに注意してください。フランス語から英語への翻訳やファイル形式間の変換などとは異なり、どのような種類の変換も参照しません。代わりに、画像内の各ポイント/ピクセルが同じ方向に同じ量だけ移動されたことを意味します。あるいは、原点を反対方向に同じ量だけシフトしたと考えることができます。たとえば、各ピクセルを50または100ピクセル右に移動することで、最初から2行目と3行目の画像を生成できます。
畳み込み演算子が変換に関して通勤することを示すことができます。
fを
gと畳み込む場合、畳み込まれた出力
f* gを変換するか、最初に
fまたは
gを変換してから畳み込むかは問題ではありません。ウィキペディアには
もう少しあります。
平行移動不変の物体認識の1つのアプローチは、物体の「テンプレート」を取得し、画像内の物体のあらゆる可能な位置と畳み込むことです。ある場所で大きな応答を受け取った場合、テンプレートに似たオブジェクトがその場所にあることを示唆しています。このアプローチは、多くの場合、テンプレートマッチングと呼ばれます。
不変性と等分散
Santanu_Pattanayakの答えは(ここでは)翻訳の間に差があることを指摘不変と翻訳equivariance。変換不変性とは、入力のシフト方法に関係なく、システムがまったく同じ応答を生成することを意味します。たとえば、顔検出器は、一番上の行の3つの画像すべてについて「FACE FOUND」と報告する場合があります。等分散とは、システムが複数の位置で同等に機能することを意味しますが、その応答はターゲットの位置に応じて変化します。たとえば、「顔らしさ」のヒートマップでは、画像の最初の行を処理するときに、左、中央、および右に同様の隆起があります。
これは時々重要な区別ですが、多くの人は両方の現象を「不変性」と呼びます。特に、通常、等変反応を不変反応に変換するのは簡単です。すべての位置情報を無視してください。