信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

2
画像を照らす光源の色温度を計算するにはどうすればよいですか?
特定の画像を照らす光源の(黒体に相当する)色温度を計算するにはどうすればよいですか?以下は、色温度とRGBヒストグラムのシフトを操作するAdobe Lightroomのスクリーンショットです。画像のRGBコンポーネントが与えられた場合、どのように計算しますか?単一の値を期待する必要があります-照明源の黒体相当温度ですよね?

5
正弦波のFFTが期待どおりに到達しない、つまり単一ポイント
シアンのプロットは50 Hzのスペクトルであり、マゼンタのプロットは50.1 Hzの正弦波(振幅0.7)です。両方とも1024サンプル/秒でサンプリングされます。このスペクトルを取得するために、1024ポイントのFFTを実行しました。 なぜ50Hzのスペクトルだけが単一の値なのですか?50.1 Hzのサインが50.1 Hz以外の他の周波数で構成されているのはなぜですか。これらの新しい周波数はどこから来たのですか? 50.1 Hzの信号に対して非線形処理をしませんでした!また、実際に生成された正弦波の振幅が0.7である場合、50.1 Hzは最大振幅が小さいように見えます。つまり、0.7ではありません。 どうしてこれなの? MATALBコマンドfft()で取得;
14 fft 

1
任意の形状の自動トリミング
バイナリマスクで定義された任意の形状があります(灰色=形状、黒=背景)。 私は灰色のピクセルのみを含む可能な限り大きな長方形を見つけたいです(そのような長方形は黄色で描かれています): 形状は常に「ワンピース」ですが、必ずしも凸状ではありません(形状の境界上のすべてのポイントペアが、形状を通る直線で接続できるわけではありません)。 そのような「最大の長方形」の多くが存在する場合があり、その後、次のようなさらなる制約を導入できます。 中心が図形の重心(または画像の中心)に最も近い長方形を撮影する 定義済みの比率(4:3など)に最も近いアスペクト比を持つ長方形を撮影します アルゴリズムについて最初に考えたのは次のとおりです。 形状の距離変換を計算し、その重心を見つける シェイプのピクセルのみが含まれる正方形の領域を拡大します 長方形(元は正方形)の幅または高さを拡大し、形状のピクセルのみが含まれるようにします。 ただし、このようなアルゴリズムは時間がかかり、最適な解決策にはならないでしょう。 助言がありますか?


3
畳み込みが必要な理由、または畳み込みの背後にある哲学は何ですか?
私はデジタル画像復元の分野で働いています。畳み込みに関するすべてのことを読みました。LTIシステムでは、インパルス応答を知っていれば、入力とインパルス応答の間の畳み込みを使用するだけで出力を見つけることができます。 誰もがその背後にある主要な数学的哲学は何であるか教えてもらえますか?あなたの経験はそれについての単なるインターネットサーフィン以上のものを私に教えてくれます。

3
ノイズの「白さ」を決定する
ノイズがどの程度「ホワイト」であるかをどのように定量化しますか?特定のサンプルがどれだけホワイトノイズに近いかを定量化できる統計的測定値、またはその他の測定値(FFTなど)はありますか?
14 noise 

2
ノイズの多い信号のSNRを計算するにはどうすればよいですか?
私は実際にそれを行う方法を理解するのに問題があります 純粋な音声を含むwavファイルと、バックグラウンドノイズ(ホワイトノイズ、群衆ノイズ、吹く風の録音など、さまざまなものになる可能性がある)だけを含む別のaveファイルがあります。これらは、純粋な音声または純粋なノイズのいずれかです。したがって、両方のファイルの対応するサンプル(またはサンプルのフレームの平均)を単純に分割することで、それらからSNR値を取得できると思います。次に、それらを大胆に組み合わせて、ノイズの多い音声ファイルを取得します。このファイルにはまだ同じSNRがあると思います。 次に、このファイルをノイズ除去プログラムに渡し、結果として別のファイルを取得します。この「ノイズ低減」ファイルのSNRを計算するにはどうすればよいですか? ---編集--- ここに投稿されたフォローアップの質問
14 matlab  snr 

5
エッジと長方形を検出する方法
画像内の長方形を検出しようとしています。画像の背景は1色です(ほとんどの場合)。バイナリイメージ(1 =背景、0 =エッジ)を取得し、後でハフ変換を実行する2つの方法を試しました... ソーベルまたはキャニーフィルター 滑らかな画像A、差分画像Aの作成-ガウス、しきい値付きのバイナリ画像の作成(ヒストグラムの作成、最高ビンは背景にする必要があります...) 結果は、エッジのあるバイナリイメージです。さまざまな異なる画像に対してどの方法がよりうまく機能するかは、今ではわかりません。何か案は?

2
画像内の対称領域/パターンを見つける
人間の背面の平均曲率を表す一連の画像があります。 私がやりたいのは、画像のその他の部分に類似した反映された「カウンターパート」を持つポイントの画像を「スキャン」することです(おそらく中央線に対して対称ですが、変形がある可能性があるため必ずしもそうではありません)。一部の画像合成技術では、これを使用して画像間の類似点を「自動検出」しますが、同じ画像の両側でそれらを検出したいです。 最終的な目標は、背中を対称的な「半分」に適応的に分割する、連続した、おそらく最も湾曲した縦線を見つけることです。 サンプル画像を下に配置します。すべての領域が対称ではないことに注意してください(具体的には、画像の中心のすぐ上で、赤い垂直「ストリップ」が右にずれています)。その領域は悪いスコアなどを受け取るはずですが、ローカル対称性は、より遠くに配置された対称点から定義されます。いずれにせよ、アルゴリズムをアプリケーションドメインに適合させる必要がありますが、私が目指しているのは、SOM相関/畳み込み/パターンマッチング戦略であり、既に何かがあるはずです。 (編集:下にさらに画像があり、さらに説明があります) 編集:要求に応じて、行儀が良く問題のあるより典型的な画像を含めます。しかし、カラーマップされた画像の代わりに、それらはグレースケール画像であるため、色はデータの大きさに直接関連します。これは、カラー画像では発生しませんでした(通信のためだけに提供されます)。グレーの画像はカラーの画像と比べてコントラストが欠けているように見えますが、データの勾配があり、必要に応じて適応的なコントラストで表示することができます。 1)非常に対称的な被写体の画像: 2)異なる瞬間の同じ被写体の画像。より多くの「機能」(より多くのグラデーション)がありますが、以前のように「対称」ではありません。 3)より一般的な凹型正中線の代わりに正中線に凸部(骨の突起、より明るい領域で示される)を備えた薄い若い被験者: 4)X線で確認された脊椎の逸脱のある若者(非対称性に注意): 5)典型的な「傾けられた」対象(ほとんどが湾曲した正中線の周りで対称的であり、それ自体は適切に「変形」していない): どんな助けも大歓迎です!

4
人間に近い精度でリアルタイムにオーディオ信号の周波数成分を抽出する最も効率的な方法
私はFFTのような方法で任意のオーディオサンプル(通常は音楽)の周波数成分を抽出する方法を(可能であれば)解決しようとしていますが、FFTアルゴリズムの研究では、いくつかの問題があることを学んでいますこの目的のための厳しい制限。 FFTが提示する3つの問題があります。 FFTビン解像度はウィンドウサイズと同等であるため、かなり妥当な精度(1 Hzなど)を達成するには、不当に長いウィンドウ(1秒など)が必要です。これは、トランジェントまたは新しく導入された周波数をすばやく検出できないことを意味します。また、より高速なCPUとより高いサンプルレートでは問題を解決できないことを意味します。制限は本質的に時間に関係しています。 人間は周波数を対数的に知覚しますが、FFTビンは直線的に間隔が空けられます。例えば私たちの公聴会のローエンドでは20Hzの違いがある巨大なハイエンドでは20Hzの差が知覚できないのに対し、。したがって、低周波数で必要な精度を得るには、高周波数で必要なものよりもはるかに多くを計算する必要があります。 これらの問題の一部は、FFTビン間を補間することで解決できます。これは、多くの音楽オーディオで機能する場合があります。これは、周波数が非常に離れていることが多く、1つの周波数しかビンのペアに漏れないためです。しかし、特にパーカッシブな楽器のような不協和音の場合、これは必ずしも当てはまりません。したがって、補間は実際には単なる当て推量です。 DFT / FFTアルゴリズムの理解から、出力(ビンの振幅)は事実上、各ビンの周波数でのサイン/コサインの相関です。ビンの周波数が非線形に間隔を空けるようにアルゴリズムを再設計できると(つまり、異なるサイン/コサインのセットを相関させると)、すべての周波数で音響心理学的に等しい解像度を達成できると思います。これは可能ですか、それとも関係する数学の私の不完全な理解に基づく空想ですか? 興味のあるすべての周波数でサイン/コサインを相関させることで、ブルートフォースで問題を解決することもできたと思います。これは可能ですか?どのような効率ですか?問題は解決しますか? 信号のより正確でリアルタイムの周波数分解を実現する別の方法はありますか?CPUの効率は懸念事項ですが、大きな懸念事項ではありません-理論的にはまったく実行できるかどうかに部分的に興味があります。ただし、最新のデスクトップマシンでリアルタイムで実行可能なものが理想的です。

3
ソフトウェアでAFSK信号を復調する方法
オーディオチャネル(スピーカー/マイク)を介して、あるデバイスから別のデバイスにバイナリデータを送信しようとしています。パケットラジオのように、と2つの周波数および AFSK(Audio Frequency Shift Keying)を使用し。私はRubyで少し遊んでみましたが、私の最初の実装は古典的なインコヒーレントな復調器を単純に模倣したもので、今のところうまくいきます。1200 ボー1200 ボー1200 \text{ Baud}fm a r k= 1200 Hzfmark=1200 Hzf_{mark} = 1200 \text{ Hz}fs p a c e= 2200 Hzfspace=2200 Hzf_{space} = 2200 \text{ Hz} 問題は、パフォーマンスを懸念している現在のソリューションが遅すぎるモバイルプラットフォームにこれを移植しようとしていることです。ソフトウェアでAFSKを復調する方法は多数あります。 スライド式DFT(FFT) スライド式ゲルツェルフィルター フェーズロックループ ゼロクロッシング どのように行くのでしょうか?選択できるオプションが多すぎます。さらに多くのオプションが利用可能であると確信しています。おそらく、上記で名前を挙げたものよりも優れたソリューションが存在するのでしょうか?誰かが私のためにコード例を持っていますか?心配です パフォーマンス(iOSまたはAndroidデバイスなどのモバイルプラットフォームで実行する必要があります) 安定性(ある程度のノイズを処理できるはずです) 提案やヒントは大歓迎です!
14 dft  demodulation  fsk 

1
システム応答から測定システムをデコンボリューションする
システム識別測定を実行していますが、測定された応答から測定システムの応答をデコンボリューションしたいと思います。 システムのセットアップは次のとおりです。信号はPCで生成され、信号はサウンドカードに送信されます。サウンドカードは信号をパワーアンプに転送し、スピーカーを駆動します。スピーカーは、マイクロフォンによってキャプチャされたサウンドエネルギーを伝播し、サウンドカードに戻します。記録された信号はコンピューターで処理されます。 サウンドカードからの信号も直接返されるため、pc-> DAC-> ADC-> pc responseの応答を測定できます。 この「測定チェーン」を全体的な「システムチェーン」からデコンボリューションしたいと思います。このタスクにはどのような方法を使用できますか?

4
Scipy-オーディオ処理
オーディオ信号処理に適したツールを探しています。例:音声と音楽の分析、自動言語識別など。 Scipyライブラリはオーディオ処理のための機能を提供しますか?オーディオ信号処理に適したツールはありますか? このためのツールを提案していただけますか?

2
コンピュータービジョンと画像処理の間の(明確な)ライン
私はここ数年、コンピュータービジョンと画像処理の両方に取り組んで学び、今では完全な初心者ではないと考えています。 それでも、これらすべての年月の後、それが主にコンピュータビジョン関連であるか、それが画像処理であるかどうかを私の仕事の特定の部分について伝えることは困難です。私はただその行を見ることができません-私が仕事、勉強、研究するとき、私は両方のキーワードで参考資料を読みます。 だから、私はフィールドの比較(違いだけでなく、重複)に焦点を当てて、コンピュータビジョンと画像処理フィールドの定義に興味があります。 さらに、(概念的または既存の)実用的なアプリケーション、プロジェクト、および処理/活用の例を示すことは有益だと思います。 単独(またはほとんど)のコンピュータービジョンツールとアイデア 単独で(またはほとんど)画像処理ツールとアイデア 両方の分野のツールとアイデアの組み合わせ どちらがもう一方ではなく、どちらになるのか、または両方になるのかに特に注意。 これらのフィールドは非常に関連性があり、「線」はこの質問が求めているほど明確ではないかもしれないことを理解していますが、この質問のポイントは分類するための単純な決定ルールを設計することではないことを理解してください(私の)むしろ、これらの分野の焦点と目標のより良い理解。また、特に質問していなくても、質問の調子で話題になっているような追加情報を歓迎します。

2
画像内の曲がりくねった川の検出
私は表面を持っています:と各表面の測定された属性(変数):。ほとんどのサーフェスは、サーフェス全体にランダムに属性が分布しますが、一部のサーフェス(興味深いサーフェス)には、蛇行した川のパターンが表示されます。nnnzi(x,y)zi(x,y)z_i(x,y)ai(x,y)ai(x,y)a_i(x,y) 表面のどれがそのようなパターンを持っている可能性が最も高いかを教えてくれる手段を考え出す際に、あなたの助けが必要です。nnn 以下に示すように、同じヒストグラムを持つ多くのマップがあります。そのため、メジャーは空間的連続性を「報酬」する必要があります。これを説明するために、川の画像とほぼ同じヒストグラムを持つランダム画像を作成しました。 したがって、エントロピーの画像統計は、ソリューションの一部にすぎない可能性があります。 以下は、蛇行する川のパターンのない画像の例です。 私の画像は合成(Matlabで作成)です。実生活では、パターンのない画像は、同様の値の小さな塊の形でいくらか空間的な連続性を持っている場合があります。 グレースケールの画像は次のとおりです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.