信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

3
複雑な応答(および正当化)を平均化する方法?
入力信号と出力信号のFFTを比較して、システムの応答を計算するソフトウェアを開発しています。入力信号と出力信号はウィンドウに分割され、ウィンドウごとに、信号は中央値減算され、ハン関数で乗算されます。そのウィンドウの機器応答は、処理されたデータのFFTの比率になります。 上記は標準的な手順であると思いますが、説明が不十分な場合があります。私の問題は、複数のウィンドウからの応答を組み合わせる方法にあります。 私が見る限り、正しいアプローチは、すべてのウィンドウにわたって複雑な値を平均することです。振幅と位相の応答は、各周波数での平均の複素数値の振幅と位相になります。 av_response = sum_windows(response) / n av_amplitude = sqrt(real(av_response)**2 + imag(av_response)**2) av_phase = atan2(imag(av_response), real(av_response)) 周波数ビン上の暗黙のループ。 しかし、私はこれを変更して、最初に各ウィンドウで振幅と位相を計算し、次にすべてのウィンドウで振幅と位相を平均するように求められました。 amplitude = sqrt(real(response)**2 + imag(response)**2) av_amplitude = sum_windows(amplitude) / n phase = atan2(imag(response), real(response)) av_phase = sum_windows(phase) / n 角度の平均が「間違っている」ため、これは正しくないと主張しました。たとえば、0度と360度の平均は180度ですが、一緒に作業している人は「OK、振幅のみを表示します」と応答しました。 だから私の質問は: 振幅についても2番目のアプローチは一般的に正しくないと私は思いますか? もしそうなら、関連している可能性のある例外はありますか、そしてそれは私が一緒に働いている人々が2番目の方法を好む理由を説明するかもしれませんか?たとえば、ノイズが小さくなると2つのアプローチが一致するように見えるので、おそらくこれは低ノイズの受け入れられる近似ですか? 2番目のアプローチが正しくない場合、これを示すために使用できる説得力のある信頼できる参照はありますか? 2番目のアプローチが正しくない場合、振幅についてこれを示す良い、理解しやすい例はありますか(0と360度の平均は位相に対してそうです)? あるいは、私が間違っている場合、自分をよりよく教育するためにどんな本がいいでしょうか? 私は-1 1 1 -1 1 …

2
画像パッチを定性的に比較するための適切なメトリック
画像内の小さな正方形のパッチを「一致」させようとしています。一見すると、これら2つの配列のユークリッド距離スタイルの比較を単純に実行して「類似性」の測定値を取得することは合理的に思えます。これは多くの場合正常に機能します(このメトリックによると、「最良の」パッチ(最小値)はクエリパッチと非常によく似ています)。ただし、これが非常に悪い一致を生成する多くの場合があります。たとえば、次の2つのパッチペアがあるとします。 レンガの壁の2つのパッチ、スコア134(これは平均絶対ピクセル差のコンポーネントの合計です): レンガの壁の1つのパッチ、草の1つのパッチ、スコア123です。 人間にとって、草は「明らかに」レンガと一致しませんが、この測定基準はそうではありません。問題は、局所的な統計的変動にあります。 ヒストグラム比較のようなものを使用すると、すべての空間情報が完全に失われます。たとえば、パッチが上部の草と下部のレンガの場合、下部の草と上部のレンガのパッチと正確に一致します(再度、別の「明らかに間違っている」一致)。 これらのアイデアの両方を何らかの方法で組み合わせて、上記のペア1で「類似」と評価されるが、パッチとその垂直ミラーの例では類似していないメトリックはありますか? どんな提案でも大歓迎です!

2
ピッチベンド(MIDI)値を「通常の」ピッチ値に変換
ここに記載されているrt_lpc(リアルタイムLPC)実装を使用して、オフラインLPC分析と合成を試みています。プログラム内には、オフラインLPC分析および合成プログラムに使用できるいくつかの関数があります。rt_lpcコードは、主に作曲家などを対象としています。つまり、MIDIまたは声門パルス入力を使用します。プログラムには、(自己相関から取得した)ピッチ値を値に変換するコードがいくつかありbendます。この関係は次のように与えられます。 pitch = (int)( Stk::sampleRate() / midi2pitch[ananya.data[1]] ) / pow( 1.0653f, bend/64.0f*11.0f ); power *= ananya.data[2] / 64.0f; bend = ge.data[1] / 128.0f + ge.data[2] - 64; いくつかのポイント: a。その場で生成されるように見えるananyaタイプのオブジェクトですMidiMsg。 b。geまたMidiMsg、オンザフライで生成されるように見えるタイプのオブジェクトでもあります。 c。これらの2つのオブジェクトは、プログラムがリアルタイムで実行されるときに作成されます(私のものは、自分のmain.cppでその一部を実行するオフラインバージョンです)。 私の質問: 1.ピッチベンドとは何ですか? 2.ピッチ値をベンド値に変換するにはどうすればよいですか?マッピング関係とは何ですか? 解決策を探しましたが、明確な答えは見つかりませんでした。
11 music  pitch 


4
画像認識
商業的に使用できる2D画像の膨大で有機的に成長するコレクションで画像認識を行うことができるオープンソースシステムを探しています。 画像のスケーリングサイズ、 写真の撮る角度、 カラー同期オフセット。つまり、ソースイメージのキャプチャとレンダリングの不規則性のために、インスタンスごとに色が異なります。 写真のトリミング、 透かしやテキストの追加、 可能性のあるフォーカスのバリエーション。つまり、キャプチャーにフォーカスがなかったことを意味し、画像操作フィルターが適用されていません。 アプリケーションをトレーニングしなければならないことは問題ありませんが、そうすることで利益が得られる限り、長期的には、2Dインスタンスの数が最初の数千から数百を超えると予想されます数千; しかし、それは長期的であり、1000インスタンスのトレーニングセットとインスタンスあたり10サンプルのトレーニングセットで十分に理解できるソリューションがあれば幸いです。 更新:ライセンスは、バイナリを持っているすべての人の内部でさえ、ソースコードのリリースなしで商用内部配布に使用できる必要があります。コードが販売されることはなく、内部で使用されるだけですが、すべてのユーザーがソースコードにアクセスできるわけではなく、インターフェイスだけにアクセスできます。

2
オーディオ信号の補間における最新技術
3つの質問: オーディオ補間の品質を客観的に測定するために使用できるすべてのメトリックは何ですか?(しかし、可能であれば心理音響学の観点からも) これらの測定基準によって、オーディオ補間の現在の最先端は何ですか? 仮想楽器の一連のノートから2つのファイルを2つの解像度でレンダリングしてから、1つのファイルのアップサンプリングと高周波レンダリングバージョンを比較するとしたら、これらを客観的に比較するにはどのソフトウェアを使用すればよいでしょうか。-理想的には、前述のメトリックを使用する これまでのところ、私は収集できたので、これらのリサンプラーは最高の品質のいくつかを提供します http://www.mega-nerd.com/SRC/ http://sox.sourceforge.net/SoX/ http://www.izotope.com/tech/src/ これらのリサンプラーにあると思われる問題の1つは、プリリンギングとポストリンギングです。 主な関心事は信号の再構成であることに注意してください(その用語は意味がありません)ので、アップサンプリングはダウンサンプリングよりも多くなります。 編集:補間時間の効率は、このコンテキストでは無関係です。 よろしく、好奇心が強い:-)
11 audio  sampling 

2
「ノイズ除去」と、ノイズを除去するためのフィルタリング方法として一般的に知られているものの違いは何ですか?
かなり単純な質問-私は、信号の「ノイズ除去」と、ノイズを除去するために(一般的に知られているように)単にそれをフィルタリングすることの正確な違いを理解しようとしています。これは字句の重複の場合ですか、それとも根本的に異なるものがありますか?なぜ「ノイズ除去」と呼ばれるのですか? 編集:おそらく決定的に重要なのは、SNRを最大化するために信号をフィルタリングすることについて話すとき、私たちは通常、口語的な文脈でのAWGNを意味します。ノイズ除去でもAWGNと呼ばれている「ノイズ」もそうですが、そうであれば単にノイズ除去の方法が異なります。で始まる?
11 noise 

2
OFDM信号を復調する方法
私は、BPSK変調された6つのキャリア(またはトーン)とチューニングを支援するパイロットトーンで構成されるOFDM信号のデコードを検討しています。私がOFDMを使ったのはこれが初めてなので、これを正しい方法で行っているかどうかを知る必要があります。 私がそれをデコードすることを考えている方法は、パイロットトーンを使用して(レシーバーがわずかに調整されていない可能性があるため)キャリブレーションし、次に6つのバンドパスフィルターを使用して各キャリアを分離し、通常の方法で復調します。誰もがこれで何か問題を見ることができますか?または、これを行うより良い方法を提案できますか?

3
フィルター全般に関するドキュメント
この質問はすでにStackOverflowに投稿しています。私はここでより良い答えに行くための提案を得ました。 質問をより簡潔にするために、デジタルフィルターの概要に興味があります。 しかし、最初に私は誰かがこのフィルターを説明するいくつかのリソース(Androidで使用されます)を私に指摘できれば満足します: http://gitorious.org/rowboat/frameworks-base/blobs/671a6ff4be11b3e2d8eb017e0c7a78e6133fb2b8/services/sensorservice/SecondOrderLowPassFilter.cpp 私が興味を持っているのは、フィルターのパラメーターを選択する方法です。何も考えずにコピーできますが、使う前に基本的な考え方や考え方を理解しておくべきだと思います。 おかげで、 ユリウス

5
統計信号処理の概要
私の研究室には「統計的信号処理」を専門とするポスドクがあります。彼は電気工学の博士号を取得しており、収集した神経データを分析しています。 私は彼の足跡をたどるためにどのようなコース /トピックを勉強し始めるべきかと思っています。統計や信号処理のようなものを正確に探しているのではなく、両方に基本的なクラスがありましたが、それでも彼の仕事を理解するのは難しいと感じています。

3
画像分析-繊維認識
私は画像分析がまったく新しいです。この画像を2値化して、繊維のみを取得する方法を知っていますか? ステップバイステップの手順は素晴らしいですが、どんなヒントも同様に高く評価されます。私はMatlab、.NETを使用でき、他のツールを利用できます。 PS:このアドレスで同じ質問を見つけることができます

3
音声分析の自己相関
私はAutocorrelationについて読んでいますが、それがどのように機能し、どのような出力を期待する必要があるかを正確に理解できていません。私は自分の信号をAC機能に入力し、スライディングウィンドウを入力する必要があると思いますか。各ウィンドウ(たとえば、1024サンプル)は、-1と1の間の係数を出力します。符号は、ラインが上向きか下向きかを示し、値は相関の強さを示します。簡単にするために、オーバーラップはなく、ウィンドウを毎回1024サンプルだけ移動するとします。44100のサンプルでは、​​43の係数を取得しますが、それらすべてを保持する必要がありますか? 200秒の信号に対してこれを実行すると、8600の係数が得られます。これらの係数を使用して繰り返しとテンポを検出するにはどうすればよいですか?それらをグループ化するためにある種のニューラルネットワークを作成する必要がありますか、それともやりすぎですか? 助けてくれてありがとう。

3
画像から特定の背景を削除するにはどうすればよいですか?
これはガボールフィルタリング後に取得された画像です...明るい白い丸い欠陥を除いて、画像内の線を削除する方法はありますか。 ガボールフィルターの別の向きを試してみましたが、次の結果になりました: しきい値設定後:十分ですが、あまり良くない メディアンフィルタリング後: 前もって感謝します

1
コンピュータビジョンを支援するためにオブジェクトにテクスチャを作成するための推奨パターンはありますか?
ではこの回答へのコメント、表面上のテクスチャを提供するために、レーザダイオードと回折格子を使用してコンピュータビジョンシステムにおける高さの計算を支援するために示唆されました。 私がよく知っているパターンは、オブジェクトにチェス盤パターンを投影していると思います。投影された画像の変形が何らかの形で直接使用されていることを(不完全に)理解していました。つまり、以前は投影されていた正方形のパターンが湾曲したポリゴンになり、正方形に戻す変換によって3D構造に関する情報が得られます。これは間違っていますか? 推奨パターンはありますか?パターンを選択する際の依存関係は何ですか?それはターゲットオブジェクトの形状、材質などに依存しますか、それともフィーチャの変動性の量の関数ですか?

4
DFT-畳み込みを使用したスペクトルドメインのウィンドウ効果の削除
DFTのウィンドウ処理の件について考えていたとき、思いついた。DFTは、使用されるウィンドウのスペクトルで畳み込まれた信号のスペクトルを生成します。したがって、メインローブとサイドローブがあります。 信号とウィンドウスペクトルの大きさの両方を再度畳み込むことで、信号のスペクトルに対するウィンドウ効果を取り除くことができると考えました。次の画像からわかるように、実際に機能しました。 左は、ハニングウィンドウで生成された元のスペクトルです。右は、ハニングウィンドウのDFTによって畳み込まれたスペクトルです。上はスペクトル自体、下はMATLABのfindpeaks結果です。 私はこのテクニックに関して何も読んだことがありませんが、私はそこに何も発明していないと確信しています。したがって、この処理をスペクトルで実行することの利点があるのか​​、それとも私には見られない欠点があるのか​​と思います。 私が見るところから見ると、前の画像でわかるように、これはピーク検出に役立ちます。また、次の2つの画像でわかるように、スペクトルが少し歪んでいるように見えます。: 青いグラフはスペクトル、赤いグラフは畳み込み後のスペクトルです。 これについて何か考えはありますか? このFFT後の畳み込みから発生する可能性のある問題はありますか? 主題を扱う紙はありますか? 編集 次のグラフを生成するスクリプトがここにあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.