信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

2
高速ピッチ認識
ミュージシャンが音楽を再生しているときにピッチ(信号周波数の測定)を検出し、チューニングがずれている場合は警告を出す必要がありますが、音楽がFFT(高速フーリエ変換)には少し速すぎる場合があります。 以下に、問題の技術的な説明を記載します。 ミュージシャンは90〜140 bpmで音楽を演奏します。つまり、毎分90〜140のノートグループがあり、各グループには最大8(より頻繁には最大4)のノートがあります(60/140/8 = 0.0536秒、60/90/4 = 0.167秒)。つまり、ノートは毎秒6〜19のレートで変化する可能性があります。 音楽は対数スケールを使用します(添付の画像を参照)。たとえば、440Hzから880Hzまでの範囲は12の音符に分割され、そのうちの7つだけがメロディーに使用されます。(基本的に、ピアノの白いキーのみを使用します。開始周波数をシフトする場合、黒いキーの一部を使用し、白いキーの一部は使用しません。)つまり、次の各ノートの周波数が乗算されます。 2 ^(1/12)= 1.05946。 物事をより複雑にするために、A(La)周波数は438から446 Hzまで変化します。弦楽器は理論的にはチューニングできますが、管楽器は気温と湿度に依存するため、周波数はサウンドチェック中にミュージシャンによって再ネゴシエーションされます。 ミュージシャンやボーカリストは周波数に誤りを犯すことがあり、それを「調律外」と呼んでいます。彼らは、そのような「調整外エラー」を通知するデバイスを望んでいます。彼らはチューナーを持っていますが、チューナーは何かを見せ始める前に約1秒間同じサウンドを再生する必要があります。これはチューニングには有効ですが、音楽の再生中は機能しません。 ほとんどの場合、チューナーはFFTを実行しており、式 df=1/Tdf=1/Tdf = 1/T 1Hzの解像度を取得するために1秒間待機します。 A = 440Hzの場合、2つの音符間の周波数の差は440 * 0.05946 = 26.16 Hzです。その周波数分解能を得るには、0.038秒の取得時間を使用する必要があります。つまり、tempo = 196bpmでFFTは2つを区別できます。ノートは、98 bpmでピッチが変化するその瞬間に取得を開始する場合、50%の調整外エラーを通知できます。取得期間中にピッチの変更を許可すると、49 bpmになり、遅すぎます。さらに、周波数についてより正確であることが非常に望ましいです。たとえば、25%または12%の調整誤差を検出します。 FFTよりも優れた周波数(ピッチの検出)を測定する方法、つまり、より短い取得時間でより良い分解能で測定する方法はありますか?(少なくとも2倍、理想的には8〜16倍。)代わりに、異なるオクターブの音を区別する必要はありません。たとえば、440と880の両方がAとして認識される場合があります。FFTの線形性は必要ありません。出力、対数スケールの方が良いでしょう。(おそらく、より多くのトレードオフが可能ですが、今のところ、他に何も思い浮かびません。) これは本当に良い絵です:

2
多次元信号の位相シフトと位相スペクトルの項
1D信号の位相について知っています。しかし、2D、3Dなどのより高い次元に行くと、コンセプトを把握するのが頭痛になります。 画像またはビデオ信号のような多次元(2D、3Dなど)信号の場合、位相シフトおよび位相スペクトルという用語は何を意味しますか? 位相項はどのように数学的に表されますか? 位相スペクトルをどのように分析しますか? 信号に関する位相スペクトルからどの情報を取得しますか? 誰かがプロットや図で説明できますか?

6
電話の音声が8 kHzでサンプリングされるのはなぜですか?
いつ電話を試してみることにしましたか 888kHz?これは常にそうでしたか?なぜそれをしたのですか?それは、より高いビットレートを速く転送できないためですか?そして、これらの理由はまだカウントされますか?そうでない場合、なぜ新しい標準がないのですか?それは本当ですか888 kHzは、理解可能な音声を転送するための最低のサンプリングレートですか? 私はこれのソースを見つけようとしていますが、それについて多くの情報がないようです。
8 audio  sampling 

4
極と零点とは何ですか?
フィルターの極と零点の概念は、MATLABでのフィルターの極-零点プロット生成を通じて、ラボ(講義と同期していない)で紹介されました。講義でポールが方程式の無限大(またはその分母がゼロ)を生成し、ゼロが分子の根をゼロにすることを説明するまで、その重要性はわかりませんでした。私はまだ極と零点が何であるかを完全に理解することができません。誰かが極と零点とは何かについて直感的で簡単な説明をすることができますか?とても有難い。

1
Raw I / QをdBに変換する
ソフトウェア無線機からI / Qデータを取得しています。データの信号にいくつかのことをしたいのですが、それが特定の範囲を超えている場合のみです。この種のデータからdB(dBmなど)を取得するための一般的な手順は何ですか?SDR#などのプログラムはそれを実行しますが、私はそれらを真似できるように、それらが何を実行するのか正確にはわかりません。

2
Photoshop CCで詳細を保持するアップサンプリングの基本的なアルゴリズムは何ですか?
Photoshop CCのディテールを維持するアップサンプリングアルゴリズムは本当に素晴らしいです。ほぼリアルタイムで詳細を保持しながら、あらゆる画像を拡大できます。そして、それがどのように実装されているのか、本当に疑問に思います。 私はキーワードで論文を検索することから始めましたsingle image super resolution。そして、現在の最先端のアルゴリズムは、欠けている高周波情報を推測するために訓練された外部データベースを必要とするようです。完全な辞書をトレーニングして配布するのは本当に難しいと思いますよね?また、画像ピラミッドを含む辞書をリアルタイムでトレーニングすることはできないと思います。 その後、アルゴリズムにimage upsampling比べて十分高速に見えるの領域に目を向けましたが、super resolution非常に多くのアルゴリズムがあり、私は完全に迷っています。 それで、誰かがそのツールをどのように実装できるかについて推測やヒントがありますか?ありがとう!

5
オーバーサンプリングの前にホワイトノイズを追加してデジタル化を改善する
私は物理学の本を読んでいて、信号をデジタル化するときに、プロセスを改善するためにホワイトノイズが追加されたと言っていました。これがどのように機能するのかわかりません。したがって、私の質問は次のとおりです。 アナログ信号をデジタル化する場合、オーバーサンプリングと組み合わせるとノイズを追加することがどのように有益になりますか?

4
DSPの目的で、固定小数点演算でさまざまな数学関数を実装するための書籍/リソース
以下を詳細にカバーする本またはリソースを探しています。 DSPの目的で、固定小数点演算で数学関数(対数、指数、正弦、余弦、逆など)を実装する。 ルックアップテーブル、テイラーシリーズなどを使用するような手法 私はCプログラミングにかなり精通しており、効率的な方法でさまざまな数学関数を実装する方法についてのアルゴリズムにもっと興味があります。

2
加法性ホワイトガウスノイズを伴う未知の矩形パルスの持続時間
問題。 離散信号f[ 私]f[私]f[i](以下の例)。は加法性ホワイトガウスノイズを含む矩形パルスの形をしている ことが知られています。f[ 私]f[私]f[i] f[ i ] = s [ i ] + n [ i ]f[私]=s[私]+ん[私]f[i] = s[i] + n[i]、 s [ i ] = α (θ [ i −私1] - θ [ I -私2] )+ cs[私]=α(θ[私−私1]−θ[私−私2])+cs[i] = \alpha(\theta[i - i_{1}] - \theta[i - i_{2}]) + c、 私2>私1私2>私1i_{2} …


3
オブジェクト検出とオブジェクト認識
オブジェクト認識とオブジェクト検出を区別するのに少し混乱があります。一部の人々は、オブジェクト検出はオブジェクト認識のサブトピックであると言いますか?誰かがこれら2つのトピックの違いを明確にできますか? 私の知る限りでは: 物体認識は「画像内の物体は何ですか」という質問に答えていますが、物体検出は「その物体はどこにありますか」という質問に答えています。 誰かがそれぞれに例を惜しみなく提供することによって、誰かが違いを説明できることを願っています。

3
2Dから3Dへの変換は可能ですか?
ビデオから異なるフレームでの車の位置をキャプチャしました。 仮定車の(画像で私たちの方に来ているegleft側車)ビデオ・フレーム1の重心は、ビデオ・フレーム4でP(x1、y1)とQ(x2、y2)があります。 PおよびQポイントを3Dに表すことはできますか?正しいピクセル距離d(PQ)を計算し、最後に実際の距離を計算できるように 注:uはカメラが静止しており、地面から10 mの高さに配置されていると想定できます。u は、次の図も参照できる場合は、適切なデータを想定できます。

2
Facebookで使用される圧縮アルゴリズムとは何ですか?
Facebookが画像を圧縮するために使用する圧縮アルゴリズムは何ですか?サイズ242 Kbの画像をアップロードし、同じ画像をFacebookアルバムからダウンロードしました。ダウンロードした画像のサイズは46 Kbで、主観的な品質はほぼ同じです。元の画像(アップロード)とダウンロードした画像(Facebookから)を区別できませんでした。ダウンロードされた画像はからにダウンサンプリングされ1226 x 1600ました552 x 720。したがって、Facebookは、主観的な品質に大きな影響を与えることなく、画像をFacebookアカウントにアップロードしている間、適切な比率で画像を圧縮します。 彼らがこの目的のためにどのような圧縮アルゴリズムを使用しているのだろうか。あなたの最良の推測は何でしょうか? Original image: tamil_girl_painting (size 1226 x 1600) Downloaded (from Facebook) image: tamil_girl_painting (size 552 x 720)

2
非常にうるさいオーディオからのノイズ低減
バードコールの録音でオーディオの一部を自動的にセグメント化するアルゴリズムを記述しようとしています。私の入力データは1分間のwaveファイルであり、出力では、さらに分析するために個別の呼び出しを取得したいと考えています。問題は、S / N比が環境条件とマイクの品質(モノラル、8 kHzサンプリング)の質が悪いためにかなりひどいことです。 ノイズ除去をさらに進める方法についてのアドバイスをいただければ幸いです。 これが私の入力の例です。ウェーブ形式で1分の音声録音:http : //goo.gl/16fG8P これは信号がどのように見えるかです: バンドパスフィルタリングでは、1500〜2500 Hzの範囲にあるものだけを維持していますが、状況は改善されますが、それでも期待からはほど遠いです。このスペクトルにはまだ多くのノイズが存在しています。 また、長期的な(32サンプル間隔を超える)平均エネルギーをプロットし、そこからいくつかのクリックを削除しました。結果は次のとおりです。 残りのすべてのノイズについて、開始検出アルゴリズムに非常に低いしきい値を設定して、最後の10秒間の鳥の鳴き声を選択する必要があります。問題は、そのような方法で微調整すると、次のレコーディングで誤検知が大量に発生する可能性があることです。 移動平均フィルターは、風雑音に少し役立ちます。他のアイデアは?「スペクトラルサブトラクション」を考えていましたが、鶏と卵の問題があるようです。ノイズのみの領域を見つけるには、オーディオをセグメント化し、オーディオをセグメント化して、ノイズを除去する必要があります。このアルゴリズムを含むライブラリや、疑似コードの実装を知っていますか?Methinks Audacityは、このような方法を使用してノイズを除去します。これは非常に効果的ですが、ノイズのみの領域をマークするのはユーザーに任されています。 私はPythonで書いており、それは無料のオープンソースプロジェクトです。 読んでくれてありがとう!

2
画像からランダムなドットを削除するにはどうすればよいですか?
最近、スキャンされた画像をいくつか受け取りました。解像度はOKですが、黒い点がランダムに飛び散っています。これらは、いくつかの非常に明るい領域を除いて、すべて(衣服、顔、壁、窓など)をカバーします。彼らがどうやってそこに着いたのかもわかりません。ここにサンプルがあります: 情報コンテンツの観点からは、これらのドットはかなり明確なシグネチャを持っている可能性が高いため、おそらく削除できると思います。(たとえば、それらが均等に分散されている場合、フーリエ変換の空間マスクが不思議に思うことを知っています。)これらのアーティファクトを削除するアルゴリズムはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.