画像処理とフーリエ変換

フーリエ変換が画像処理/コンピュータービジョンでどのように、そしてなぜ使用されるかを理解しようとしています。以下は私がこれまでに集めたものです。それに対する私の理解は正しいでしょうか？そうでない場合は、誰かに簡単でわかりやすい英語で説明してもらえますか？または、誰か追加するものはありますか？最後に重要なことですが、誰かが「離散フーリエ変換」を説明できますか？

フーリエ変換は、画像をその正弦成分と余弦成分に分解します。簡単に言えば、サインとコサインはそれぞれ最小値と最大値で始まる波です。現実の世界では、観測する波が最大点と最小点のどちらから始まったのかわからないため、実際にはその2つを区別することはできません。したがって、サインとコサインは単に正弦波と呼ばれます。

FTを画像に適用するとき、それを空間ドメインから「周波数ドメイン」に変換します。これは、本質的に、時間の経過に伴う色と明るさの変化（時間ではなく空間です。ピクセル数を超えています）。

編集：なぜフーリエ変換を使用するのですか？そして、他の方法に比べてその利点は何ですか？たとえば、文学における1つのアプリケーションは、形状認識またはノイズ除去です。基本的に、FTを使用して形状認識を行うにはどうすればよいでしょうか。

image-processing computer-vision

これが現実の（少し日付が古い）アプリケーションです。FFTを使用して、パターンと画像間の正規化された相互相関を効率的に計算し、追跡に使用します（または、「ForrestでTom HanksにLBJとチャットさせる方法」 Gump "）：idiom.com/~zilla/Papers/nvisionInterface/nip.html

Mhh、申し訳ありませんが、詳しく説明してもらえますか？私は完全に理解していません:)

「フーリエ変換を使用するのはなぜですか？」という質問に、高速フーリエ変換を使用して、映画シーケンスの特徴追跡の正規化相互相関の計算を高速化する実際の例を示しました。そのアルゴリズムは「フォレストガンプ」の作成で最初に使用されました。詳細については、ペーパーを参照してください。

これはあなたにとって役に立つかもしれません。

— スペイシー2013

実際には、フーリエ変換は信号を複素指数に分解するため、各ポイントで振幅と位相を測定できますが、これは役立つよりも混乱しやすいかもしれません。：Dの dsp.stackexchange.com/a/449/29

— endolith

概念的なレベルでは、フーリエ変換は、それらの正弦波の周波数に関して、画像で何が起こっているかを示します。たとえば、無地の壁の写真がある場合、左から右に、または上から下に移動しても、ピクセルの値はほとんど変化しません。周波数領域では、画像に低周波数は含まれますが、高周波数は含まれません。

一方、ピケットフェンスの写真がある場合、左から右に行くにつれてピクセルの値は常に変化します。したがって、フーリエドメインでは、X方向に高い周波数がありますが、Y方向にはありません。

最後に、チェッカーボードの写真がある場合、ピクセル値は両方向に大きく変化します。したがって、画像のフーリエ変換は、XとYの両方で高周波になります。

フーリエ変換は画像で何が起こっているかを知らせるので、画像に含まれる周波数に対して何を行うかという観点から画像処理操作を説明すると便利なことがよくあります。たとえば、高周波を除去すると画像がぼやけます。低周波を除去すると、エッジが得られます。また、低周波数を維持しながら高周波数を強調すると、画像が鮮明になります。

FFTは、画像処理やコンピュータービジョンで広く使用されています。たとえば、基本的な画像処理操作であるたたみ込みは、FFTを使用することではるかに高速に実行できます。画像のブレ除去に使用されるウィーナーフィルターは、フーリエ変換の温度で定義されます。しかし、さらに重要なことに、フーリエ変換を直接使用しない場合でも、画像処理操作を推論するための非常に有用なフレームワークを提供します。

"MATLABによるデジタル画像処理"の著者の1人であるSteve Eddinsが、フーリエ変換と画像処理での使用方法に関するブログ投稿シリーズを公開しています。

— ディマ
ソース