コンピュータービジョン:ランダムフィルターがエッジ検出器と同様に機能するのはなぜですか?


7

「ランダムに初期化されたフィルターは、エッジ検出器のように機能する」とここで読みました。この現象を説明している論文があるかどうか知りたい。


あなたは紙にだけ興味があるか、合理的な説明で十分ですか?彼らはすべて0でない場合-あなたが呼び出すような用法でカーネルフィルタが実際にエッジ検出器が、「現象」であるため、それだけで特定の角度で任意の不連続が検出されますので、「私は一様に私の検出器に角度選ぶ」される

論文を探しているので-エッジ検出器の作成方法を読むことをお勧めします-エッジ検出器は特定の角度に対して計算されますが、特定の角度についてそれほど気にしない場合は、それらを一貫して使用してネットワークにフィードします、ほぼすべての均一な数値が良好です(ゼロケース、アイデンティティケース、および変性したアイケースは破棄する必要があります)。何かを与えるためにフィルターを取るとき、それは正規化される必要さえありません。
邪悪な

回答:


7

直感、小さな場合

どうして?カーネルが1x2(つまり、幅2ピクセル、高さ1ピクセル)の最も単純なケースを見てみましょう。

以下は、垂直エッジを検出するエッジ検出器のカーネルマトリックスです。

E1=[1+1]

次に、垂直エッジも検出するエッジ検出器の別のマトリックスを示します。

E2=[+11]

特に、畳み込みは、垂直でエッジの右側の輝度が高く、左側の輝度が低い(右側が白く、左側が黒くなる)エッジに強く応答します。 は、反対の強度変化(左が白く、右が黒)を持つ垂直エッジに強く応答します。E1E2

他の例でも同じことが言えます。たとえば、

E=[+1.71.7]

これは、出力での再スケーリングを除いて、とほぼ同じように動作します。E2

簡単にするために、それらのエントリの合計がゼロになるように正規化された畳み込みカーネルに焦点を当てましょう。(実際に使用する多くの畳み込みカーネルは、このような形式を持っています。なぜなら、それらには素晴らしい特性があるからです。)

ランダムな1x2マトリックスはどうですか?まあ、それが正規化されていれば、必然的に次のような形になります。

M=[+αα]

いくつかの定数(はランダム)の場合。が何であるかに関係なく、これはまたはように動作することがわかります。αααE1E2

結論:ランダムな正規化された1x2畳み込みフィルターは、高い確率で、垂直エッジ検出器のように動作します。

大きなケース

これは、他のサイズのカーネルに一般化できます。ランダムな正規化された2x1カーネルの場合、基本的には水平エッジ検出器を取得します。ランダムな正規化された2x2カーネルは、ある方向のエッジに反応する可能性があります(ある角度である可能性があります。特定の方向は行列のエントリによって異なります)。

マトリックスがどんどん大きくなるにつれて、この効果は減少します(私はそう思います)。ただし、実際には通常、比較的小さなたたみ込みカーネル(かなり小さな受容野)を使用するため、小さなたたみ込みカーネルでの動作をほとんど気にします。

正規化

正規化はどうですか?これまでは、ランダムに生成され、合計がゼロになるように正規化された行列について説明してきました。正規化ステップをスキップするとどうなりますか?

まあ、これはあまり変わりません。正規化を使用しない場合、ランダム行列はに分解できますここでは正規化され、そのエントリの合計はゼロになり、は定数、はすべてのエントリ。メートル×MM=M+cMc1/メートル

入力画像をたたみ込むことは、基本的にエッジ検出フィルターを入力画像に適用する可能性が高いです(前述のとおり)。入力画像をで畳み込むと、基本的に画像がぼやけてから乗算され。したがって、出力画像は、これら2つの(重み付けされた)合計です。エッジ検出フィルターと画像のぼかされたバージョンの(重み付けされた)合計です。Mcc

ランダム行列の場合、が比較的小さくなる可能性があり(ランダムな変数の束の合計の平均はかなり小さいことが多いため)を乗算すると、出力画像がエッジ検出器によってより決定されます。ぼかしによって。が小さい場合、基本的に合計の2番目の項を無視し、エッジ検出フィルターの結果として出力画像を近似できます。ccc

そのため、ランダムマトリックスを使用したたたみ込みでは、ある種のエッジ検出器を入力画像に適用したように見える可能性があります。

これらのページのサンプル画像を見ると、最初の画像はエッジ検出器のように見え、2番目の画像はぼかし演算子のように見えます。これは上記の分析と一致しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.