信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

2
2の累乗ではないサイズのFFT
私の質問は、2の累乗ではない信号の入力サイズに関するものであり、そのfftを取得する必要があります。一部のソリューションでは、1800のfftを取得したい場合、2の累乗にするために2048の長さまでゼロパッドし、基数2のアルゴリズムを適用するとします。ただし、ゼロパディングなしで異なるアルゴリズムの組み合わせを適用し、必要なFFTを計算する他のソリューションもあります。私の質問は、サイズ1800のFFTを計算するために異なるアルゴリズムの組み合わせを使用する場合、1800のFFTをとる必要がある場合に、信号を2048の長さにゼロパディングすることは結果に違いを生じますか。違いがあるか、または結果は同じになります。
9 fft 


1
2つのオーディオトラックの同期
2つのオーディオトラックを同期するアルゴリズムを実装したいと思います。 2つのトラックはよく似ています。同じ部屋にある2つのマイクからの音(必ずしも音楽ではない)の2つの録音であると想像できます。これは、2つの異なる(線形)チャネルを通過する1つの信号として、異なる加法性ノイズとともに表示されることを意味します。 最初のアイデアは相互相関のピークを探すことかもしれませんが、このトピックに関する文献を見つけることは特に興味深いですが、見つけることができるすべての論文は2つの音楽トラックを同期させることです(クロマベースのオーディオ機能を使用) )、またはスコアとオーディオを同期します。彼らはまた、タイムワーピングがあるかもしれないと仮定しますが、それは私の場合には不必要な仮定です。

6
C / C ++でのDSPプログラミング
私はMATLABを使用しており、MATLABでの信号処理とプロットに基本的な使用経験がありますが、OpenCVを使用した画像処理で作業しているため、MATLABよりもC / C ++の方が快適です... C / C ++で信号処理を行うためのDSPライブラリまたはプラットフォーム(OpenCVは画像処理用)はありますか?

2
Sound FSK / PSK / DSSSを介したPC間のデータ通信
楽しさと仕事のために、PCのスピーカーを使用して音声またはデータをエンコードして送信できるJavaベースのアプリケーションを実装する必要があります。受信側には、デコーダーソフトウェア付きのマイクがあります。 私は実装にFSK(synまたはasyncまたは提案)を使用することを考えていました: テキスト(データ)--- modulate ---> 10khz-20khzオーディオ搬送波--->無線伝送--->マイク->復調--->テキストまたはデータを表示します。 私の主な考慮事項は次のとおりです。 帯域幅が200bps以下の場合 特定のレベルまでのノイズに強い できれば16khz-20khzの搬送波で44.1khzのサンプリング(この領域ではノイズが少なく、高齢者やマイクにはあまり聞こえません。スピーカーは安価で、ラップトップですぐに利用できます) コーディングロジックが複雑すぎないこと。 最小限のコーディング作業でどの変調が最も効果的に機能しますか?Javaを使用してFSK / BFSK / PSKまたはDSSSを実現するためのライブラリ/サンプルに関する推奨事項はありますか?

1
類似性の評価のための音声比較アルゴリズム
私は2つの音声サンプルを比較し、類似点でそれらを評価しようとしています。誰かがフレーズを繰り返して、それらの2つのオーディオファイルを比較しようとしていると考えてください。 私はMFCC(http://en.wikipedia.org/wiki/Mel-frequency_cepstrum)アルゴリズムを実装することから始めました。両方のオーディオサンプルのMFCCを計算します。これにより、14程度のMFCC係数を持つ約500フレームのオーディオ(各10ミリ秒、前のものと30%オーバーラップ)が得られます。つまり、各オーディオ信号に対して500x14のマトリックスです。 次に、単純に行列を差分する単純なアプローチを実行します。これは非常に有望な結果を与えません。完全に異なるオーディオサンプル(異なるフレーズが話されている)を比較する時間の半分は、同じフレーズを繰り返そうとするオーディオを比較するよりも差が少なくなります。これは明らかに逆であり、良いスコアリングアルゴリズムを私に与えることはできません。 これをどのように改善できますか?MFCCは音声処理の本当に重要な部分だと思いましたが、明らかにそれをさらに活用する必要があります。
8 audio  mfcc 

3
シンプルなテクニックのみを使用したジェスチャー認識
私はコンピュータビジョンのコースをたどっていて、この演習を行っています。手の画像が与えられると、手を開いているか、閉じているか、パンチを開いているか、または「OK」の姿勢を保持しているかを、これまでに提供された手法(ピクセル4/8接続、接続領域、輪郭検出、穴検出、重心のようなブロブプロパティ、面積、周長、偏心、画像モーメント、反転/パワー/ログ/ガンマ補正/コントラストストレッチのような画像変換、ヒストグラム計算とイコライゼーション)。 私はいくつかの基本的なブロブプロパティでそれを行いました(閉じた手は偏心度が低く、「ok」は穴があります、開いた手はブロブの内接楕円の面積と偏心度が低いブロブ領域自体の間に大きな違いがあります) ..動作するようですが、最初の画像は少し問題があります。 より堅牢なアルゴリズムを作成するために、もっと何かがあると思います。たぶん、ある種のモーメントプロパティ?いくつかのblob軸/方向/極値が役立ちますか? PSテスト画像:

2
バイラテラルフィルターのパラメーターについて
バイラテラルフィルターに関するSzeliskiのComputer Visionブックの一部をお見せしましょう。これらのカーネル定義を解釈する方法がわかりません。 実際の合計では、とlはどのような値をとりますか?たとえば、サイズが5x5のカーネルの場合、kは負のinfと正のinfの間の値を取りますか?または1から5の間(例:matlabプログラミング)?または、-2から2までの値を取りますか?kkklllkkk また、これらの二重棒は、範囲カーネルの定義で何を意味しますか?

2
帯域幅とデータレートの関係
私のメモの一つの質問はこのようなものです。 Consider a communication channel with a bandwidth of 2400Hz. If QPSK technique is used, what is the possible transmission rate? (Assume that rectangular pulses are used in the baseband signals, and that 90% energy preservation is required.) For a baseband system, a bipolar signal of bandwidth B can support …

5
ピアノのピッチ検出
私はピアノのチューニングプログラムに取り組んでおり、その一部にはリアルタイムのピッチ検出が必要です。これは私がこれまでに行ったスキームで、ある程度は機能しますが、おそらくいくつかの改良を使用できます。 モノラル、44.1kHz、16ビットPCMオーディオを2 ^ 14サンプルのチャンクでキャプチャしています。最後の4つのサンプルを長さ2 ^ 16のバッファーに結合し、ハンウィンドウをバッファーに適用して、FFTを実行します。次に、FFTの結果を2つの解像度でバケット化します。最初に、200バケットにバケット化してから、この粒度でHPSピッチ検出アルゴリズムを実行します。ここで正確な周波数を取得する必要はありません。近づきたいだけです。次に、12000バケットにバケット化すると、10Hzから10kHzまで1セントの解像度になります。200ビンHPSアルゴリズムからおおよその周波数がわかったら、12000ビンケースのその範囲でピークを検索して、より正確な周波数を取得します。 これは、キーボードの中央にあるノートでは問題なく動作するようです。低音で発生するのは、通常、実際の音の2番目または3番目の部分である約1.5秒の音の誤認と、その後の正しい音の誤認です。 何が起こっているのかを確認するために作成したすべてのスペクトルプロットでは、予想されるピークよりも広い幅があります。この幅は、200ビンから12000ビンのケースで視覚的にある程度一貫しています。200ビンの場合、ピークが狭くなると予想していました。 ですから、信号処理は私にとっては初めてなので、私が質問することは考えられない問題があるかもしれませんが、特定の質問に関しては、サンプルサイズはこのタスクに十分ですか?ハーンはウィンドウの正しい選択ですか?FFTの前にデータを平滑化する必要がありますか?ビンの数に対してHPSはどの程度敏感ですか?多くのビンを使用した場合、非調和性により、部分音がHPSアルゴリズムの2、3、4などで除算する単純なアプローチと基本波をオーバーラップしない可能性があると考えていました。
8 fft  audio  pitch 

1
オープンアクセス信号処理ジャーナル?
信号処理はエルゼビアなので、オープンアクセスではありません。また、信号処理に関するIEEEトランザクションもオープンアクセスではありません。オープンアクセスのジャーナルと同等のまともなジャーナルはないかと思っていました。 離散時間非線形フィルタリングに関する論文を提出しようとしています。 (出版物/ジャーナル/会議に関連するタグはありません。タグを追加するか、別のSEを提案してください)

1
人のセグメンテーションと人のポーズの識別のための最先端の方法は何ですか
HOGは人検出の最先端技術であることは知っていますが、元の形式ではHOGは単なる検出方法であり、特に高速であるとは思えません(スライディングウィンドウを取得して拒否する大幅な高速化があります)初期の可能性は低いですが、特許を取得しています)。 人のポーズ(ヘッドショットやハンドショットなどの近いポーズを含む)を決定し、背景から人をセグメント化するための現在の最先端のアプローチは何ですか? ここでの設定は静止画です。

3
中央値フィルター次々
3x3ウィンドウでメディアンフィルタリングを実行して、画像を操作します。3x3ウィンドウでメディアンフィルタリングを再度実行して、結果の画像を操作します。結果の画像は単一のメディアンフィルタリングから取得できますか? 私の最初の考えは、それは正しいマスクで行うことができるということです。多分中央値の隣の中央値。確信はないけど。

1
デコンボリューション-リチャードソンルーシーvs.ウィーナーフィルター
私はいくつかのデコンボリューション技術を研究しています、以下のようなモーションブラーを取り除くために: リチャードソンルーシー ウィーナー どちらを使用するかの長所/短所はありますか? たとえば、Richardson-Lucyテクニックの長所と短所はどれですか。

2
スピーカーの評価
使うお金があまりないが、異なるスピーカー設定の周波数応答を推定したい場合、それを行うための最良の方法は何ですか? 私はとても素敵なマイクを購入し、内部に発泡体のある箱を作りました。私のアイデアは、スピーカーとマイクをボックスに配置し、それらの周波数でサイントーンを再生することにより、異なる周波数でパワーレベルを測定することです。 それとも、マイクとスピーカーがスピーカーから10インチ離れたオープンスペースにある方が良いでしょうか。 上記の2つの方法のいずれも、このような測定を行うのに有効ではないと確信しています(もしそうであれば、その理由を説明してください)。 また、サイントーンを使用する必要がありますか、それとも「インパルス」、「ホワイト」ノイズ、チャープ信号などの別のテスト信号を使用する方が良いですか。 いくつかの良い答え/アドバイスを期待しています ありがとうございました!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.