画像の場合、周波数領域は何を示していますか?


110

私は画像の周波数領域について学んでいました。

波の場合の周波数スペクトルを理解できます。波に存在する周波数を示します。我々はの周波数スペクトルを描く場合cos(2πft)、私たちはでインパルス信号を取得f+f。また、対応するフィルターを使用して特定の情報を抽出できます。

しかし、画像の場合、周波数スペクトルは何を意味しますか?OpenCVで画像のFFTを取得すると、奇妙な画像が表示されます。この画像は何を示していますか?そして、そのアプリケーションは何ですか?

私はいくつかの本を読みましたが、それらは物理的な意味よりも多くの数学的な方程式を与えます。だから誰も画像処理でそれを簡単に適用して画像の周波数領域の簡単な説明を提供できますか?


5
変換が何をするのかを理解する最良の方法は、単純な入力を変換に送り込むことです。
エンドリス

1
また、スティーブEddinsのことで、この興味深い説明を参照してくださいblogs.mathworks.com/steve/2009/12/04/...
アレッサンドロJacopson

@endolithうん!何が起こっているのか、なぜ起こっているのかを完全に理解するには、事前にドメインに関する知識が必要です。
SIslam

画像の親愛なる周波数ドメインは、(直流成分、低周波及び高周波)としてhertizにおける特定の周波数に対するワットの電力強度を表す
mntaser

回答:


93

しかし、画像の場合、周波数スペクトルは何を意味しますか?

「数学の方程式」は重要なので、完全にスキップしないでください。しかし、2D FFTには直感的な解釈もあります。説明のために、いくつかのサンプル画像の逆FFTを計算しました。

ここに画像の説明を入力してください

ご覧のとおり、周波数領域には1つのピクセルのみが設定されています。画像ドメインでの結果(実際の部分のみを表示しました)は、「回転コサインパターン」です(虚数部分は対応するサインになります)。

周波数領域で別のピクセルを設定した場合(左の境界で):

ここに画像の説明を入力してください

別の2D周波数パターンを取得します。

周波数領域で複数のピクセルを設定した場合:

ここに画像の説明を入力してください

2つの余弦の合計を取得します。

したがって、サインと余弦の合計として表すことができる1d波のように、任意の2d画像は(大まかに言って)上記のように「回転したサインと余弦」の合計として表すことができます。

opencvで画像を高速で撮影すると、奇妙な画像が表示されます。この画像は何を示していますか?

これは、サイン/コサインの振幅と周波数を示し、合計すると元の画像になります。

そして、そのアプリケーションは何ですか?

それらをすべて挙げるには本当に多すぎます。相関と畳み込みはFFTを使用して非常に効率的に計算できますが、それはより最適化されているため、FFTの結果を「見る」ことはありません。高周波成分は通常、単なるノイズであるため、画像圧縮に使用されます。


3
周波数領域の画像で、高周波数部分と低周波数部分を指定できますか?
アビッドラーマンK

4
@arkiaz:私が示した画像では、最高周波数は画像の中心にあり、最低周波数(つまり入力画像の平均)はFFT結果の左上のピクセルです。これは、ほとんどのFFT実装が提供するものです。FFTの結果を表示する場合、表示されている画像の中心に最も低い周波数を移動するのが一般的です。
ニキエストナー

1
@Mohammad:MathematicaのInverseFourier関数を使用しました。octave / matlab ifft2は同じことをしませんか?
ニキエストナー

1
@JimClayカラー画像の場合、実際にはYUVドメインの使用をお勧めします。Y =絶対強度およびUV =色。カラー画像であっても、関心のある情報のほとんどは画像の輝度部分にあります。あなたはすべて同じ数学ツールを使用しますが、元に戻してください
Atav32

4
これらは、ポイントを動かしたり、波の幅と角度がどのように変化するかを示すなど、アニメーションとして素晴らしいでしょう
エンドリス

29

これは、よく知られている「DSPガイド」(第24章、セクション5)に非常によく書かれていると思います。

フーリエ解析は、1次元信号の場合とほぼ同じ方法で画像処理に使用されます。ただし、画像の情報は周波数領域でエンコードされていないため、この手法の有用性ははるかに低くなります。たとえば、オーディオ信号のフーリエ変換が行われると、わかりにくい時間領域の波形がわかりやすい周波数スペクトルに変換されます。

これに対して、画像のフーリエ変換を行うと、空間領域の簡単な情報が周波数領域のスクランブル形式に変換されます。つまり、画像にエンコードされた情報を理解するのにフーリエ変換が役立つとは思わないでください。

そのため、もちろん、典型的な画像(以下の例など)のDFTを取得することで得られる一見ランダムなパターンの背後には、いくつかの構造と意味がありますが、人間の脳が直感的に理解する準備ができているという形ではありません。少なくとも視覚については。

イグル

ここに、画像のフーリエ変換に含まれるものと、それをどのように解釈できるかについての興味深い興味深い読みやすい説明があります。一連の画像があり、フーリエ変換された画像と元の画像の対応関係が非常に明確になります。

編集:このページご覧ください。これは、画像の知覚的に重要な情報のほとんどが周波数表現の位相(角度)コンポーネントにどのように保存されるかを示します。

編集2:フーリエ表現における位相と大きさの意味の別の例 TUデルフトの教科書「画像処理の基礎」の「セクション3.4.1、位相と大きさの重要性」はこれを非常に明確に示しています。

イグル


おい!私はあなたの質問の2番目のリンク(「もう一つの興味深い興味深い読みやすい説明...」)をたどろうとしましたが、リンクは機能していません。コメントに記載されているリンクも試しましたが、機能しません。動作中のリンクを見つけて編集してください。
ペネロペ

@penelopeあなたはリンクの問題に気付く二人目です(私の以前のコメントを参照)。実際、このページは不安定なようです。前述したように、リンクをWebアーカイブバージョンに置き換えます。これを指摘してくれてありがとう!
ウォルディリアス14年

1
実際、(最終的に機能する)リンクの例と説明は素晴らしいです:)
ペネロペ14年

12

波は1次元の波です。のみに依存します。波は2次元の波です。とに依存します。ご覧のとおり、どちらの方向にも2つの周波数があります。f(t)=cos(ωt)tf(x,y)=cos(ωx+ψy)xy

したがって、フーリエ変換の(FFT)変換あなたを与えるだろうただのFFTのように、あなたに与え。また、入力が2Dコサインを合計する関数である場合、2D FFTはそれらのコサインの周波数の合計になります。これも1D FFTの直接アナログです。cos(ωx+ψy)ω,ψcos(ωx)ω


10

フーリエ解析が直交関数と呼ばれる概念の特別なケースであることは注目に値するかもしれません。基本的な考え方は、複雑な信号をより単純な「基底」関数の線形重ね合わせに分解することです。基底関数で処理または分析を行い、基底関数の結果を合計して、元の信号の結果を取得できます。

これが機能するためには、基底関数に特定の数学的要件があります。すなわち、理想的には正規直交基底を形成します。フーリエ変換の場合、基底関数は複素指数です。ただし、他にも多くの機能を使用できます。


それは本当だ。他にどのような基底関数がありますか?daubechiesウェーブレットを考えていますが、他にもありますか?それらを区別するものは何ですか?
スペイシー

おそらく最もよく知られているのは多項式です。多項式の集合としての関数の表現は、テイラーセリエとして知られています。この系列は、関数導関数から簡単に計算されます。
-MSalters

2
基底関数を見つける1つの方法は、主成分分析を適用することです。結果として生じる「固有画像」は、多くの場合、sin / cos関数よりも人間に直観的な外観を持っています。例については、Eigenfacesを参照してください。周波数領域は依然として認識に関連しています(特に動きが含まれる場合、目/頭には周波数に敏感なエッジ検出器があります)。基底関数は、画像としてはあまり意味がありません。
ダンブライアント

PCAは広く理解されている優れた基礎計算手法ですが、データがどのように生成されたかについて異なる仮定を立てる多くの他のものがあります。独立成分分析(ICA)は、よくある例の1つです。少し離れたところに、スパースコーディングを使用した一般的な基底関数学習のアルゴリズム(たとえば、J Mairal et al。、「スパースコーディングのオンライン辞書学習」、ICML 2009)、およびディープネットによって開発された「機能学習」アプローチがあります皆さん。
lmjohns3

1
なぜ関数は直交しなければならないのですか?
quanti231 14

8

画像では、周波数の増加は、明るさや色の急激な変化に関連しています。さらに、通常、ノイズはスペクトルのハイエンドに埋め込まれるため、ローパスフィルタを使用してノイズを低減できます。


1
あなたは突然の遷移が時々ノイズとみなされることを意味しますか?
アビッドラーマンK

1
はい、時々。一般的な例には、蚊のノイズ(エッジの周りのリンギング)、マクロブロックのエッジのJPEGブロックノイズ、そしてもちろんグレインが含まれます。単純なグラデーションの画像を考えてみましょう。この画像に粒子を追加すると、画像全体に微細な遷移が導入され、高周波成分が増加します。
エムレ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.