信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A


4
畳み込みはどのように行列乗算(行列形式)として表現できますか?
この質問はプログラミングにはあまり関係がないかもしれませんが、画像処理の背後にある理論を理解しなければ、実際に何かを実装することはできません。 ガウスフィルターは、ピクセルの近傍の加重平均を計算し、エッジ検出に非常に役立ちます。これは、ぼかしを適用して画像を同時に導出できるためです。単にガウス関数の導関数とたたみ込みます。 しかし、誰かが私を説明したり、それらがどのように計算されたかについていくつかの参照を私に与えたりできますか? たとえば、Cannyのエッジ検出器は5x5ガウスフィルターについて話しますが、それらはどのようにしてこれらの特定の数値を取得しましたか?そして、それらはどのようにして、継続的な畳み込みから行列の乗算に移行しましたか?

3
YCbCr色空間のCbおよびCrコンポーネントについて
アディティブ(RGB)、サブストラクティブ(CMYK)、HSVのような色空間に精通していますが、私が現在理解しようとしている記事は、画像のセグメンテーション/オブジェクト定義のためにYCbCr色空間を操作しています。 私は朝のほとんどを費やして、YCbCrを自然に説明できるものを探していますが、理解できません。ここで、この色空間の背後 にある一般的なアイデアについてのわかりやすい直観的な説明と、これらの人たちからの画像のコーディング/圧縮にどのように使用されているかについての説明(すべてphoto.SEについて)を得ました。 RGBからYCbCrを計算するための式は、ウィキペディアで簡単にアクセスできます。 この表現の動機がわかりました。Y成分には、画像に関する(人間の目にとって)最も重要なグレースケール情報が含まれています。 私は約そのCb、Crのキャリー情報だ色を、その(人間の目(感性)中のため)、これらは品質に見える失われずに圧縮することができます。しかし、各クロミナンスコンポーネントは実際には何を表していますか? 記事の執筆者が彼らのアプローチで「クロミナンス情報はオブジェクトの定義において最重要である」と述べているように、私は現在の「Yは強度、CbとCrは何とか色情報を運ぶ」レベルで読んでいることを完全に理解できません。 YCbCrを理解する。 「Cbは...、Crは...」、または「XYを介して/またはXYを使用して見ている場合、実際にはCbコンポーネントを見て...」などの答えを探しています。他の方法で、コンポーネントが一緒に色情報を運ぶだけでなく、各コンポーネントが別々に運ぶ情報を理解するのに役立ちます。 編集 私が探しているタイプの他の色空間の直感的な説明の例を挙げましょう: RGB:黒い壁に色付きの懐中電灯を照らすように:青い懐中電灯で照らすと、青い反射が見えます。赤い懐中電灯を追加すると、青と赤の混合であるマゼンタの反射が表示されます。 CMYK:水彩絵の具を混ぜるように、「表面が反射する色に追加する」(つまり、背景から色を差し引く)ので、黄色のものとシアンのものを混ぜると、緑を反映して緑の色になります。 HSV:小さな子供は、明るい(価値)ではなく、彩度の高いオブジェクトに惹かれます。色相コンポーネントは「色を与える」ものですが、彩度が低いと、色は白で「薄く」なります。価値の変化は全体を明るくしたり暗くしたりします。 この定義により、それぞれのチャートを覚えることなく、各色空間の色表現が何を意味するかについて直感的に感じることができました。

2
正規化された周波数とは
DSPに取り組んでいますが、DFTおよびDTFTでよく使用される正規化周波数という用語を理解するのが困難です。 DSPの正規化周波数とは何ですか?そしてそれはアナログ周波数とどう違うのですか? DSPで周波数を正規化する意味は何ですか? 正規化された周波数の限界が2πであるのはなぜですか? FFTは正規化された周波数をどのように扱いますか?
11 dft 

1
スケーリング、遅延、ワープされた信号の定量的比較
次の質問は、順序変数として時間を使用して、1Dで詳しく説明されています。同様の質問が他の次元にも当てはまる可能性があります。 ブラインドソース分離(BSS)、フィルターバンク、またはデコンボリューションなどのいくつかの信号処理技術では、信号を推定したい場合があります。 x (t )x(t)x(t) そして回復するだけ 秒。x (t + d)s.x(t+d)s.x(t+d)、スケーリングされ遅延された推定。回転と剪断はより高い次元で、そして他の多くで追加することができます。 sss 倍率です ddd遅れ。歪んだデータ(バツs 、d、w= s 。x (t / w + d)xs,d,w=s.x(t/w+d)x_{s,d,w} = s.x(t/w+d))、例えば超解像のように。 理論的には、継続的に見積もることができます sss そして dddローカル相関またはフーリエ変換(シフトおよびスケーリングされているが、同じ情報を持つ2つの信号を一致させる方法)反りwwwスケール変換またはウェーブレット表現で推定される場合があります。私はいくつかのBSSの論文や本を読んだり、人々に尋ねたり、会議に参加したりしましたが、標準、または少なくとも使用可能な測定基準を見つけることができませんでした。 画像では(信号に対しても機能します)、構造的類似性インデックスが何らかの形でオフセットと分散を補正します。 オリジナルを比較するための実用的なエラー指標はありますか x(t)x(t)x(t) 変身した xs,d,w(t)xs,d,w(t)x_{s,d,w}(t)サンプリングされた信号とノイズ条件のコンテキストでは?実際、サンプリングによって引き起こされる離散化は、比較タスクを複雑にします(たとえば、111-サンプリンググリッド上のサンプルスパイク。これは整数以外の時間で遅延します)、およびノイズ。 発散などの非対称な量に頼るべきですか? 他の信号プロパティが役立ちますか(バンドパス、スパース、ポジティブなど)? 反りを忘れて、私は標準を最小限にしようとしました ℓpℓp\ell_p 規範、 sss、 ddd、および wwwパラメータとして、そして両方の信号を平滑化します。私は複雑さと結果に満足していません、そしてこれは少し退屈です。

1
音声認識のノイズリダクションは、人間の音声をより「わかりやすく」するためのノイズリダクションとどう違うのですか。
これは、主に既存の音声認識システムのノイズ低減に取り組んでいるため、しばらくの間興味を持っていた質問です。 ノイズリダクションテクニックに関するほとんどの論文は、音声を人間にとってよりわかりやすくする方法、または「音声品質」などのあいまいな用語を改善する方法に焦点を当てているようです。 このような基準を使用すると、ノイズの多い音声信号を人間が聞き取りやすくするフィルターを特定できると思います。ただし、音声認識システムの精度を向上させるためにノイズ除去された音声信号を評価しようとするときに、これらの基準を単純に適用できるかどうかはわかりません。 この違いについて論じている論文は本当に見つかりません。音声了解度と音声品質は音声認識システムの精度と相関していますか?たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか?または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか? 誰かが私を正しい方向に向けてもらえたら幸いです。前もって感謝します!

2
ガウスの違い、ガウスのラプラス、メキシカンハットウェーブレットの違いは何ですか?
CVで使用されている3つの手法は非常に似ていますが、微妙な違いがあります。 ガウスのラプラシアン:∇2[g(x,y,t)∗f(x,y)]∇2[g(x,y,t)∗f(x,y)]\nabla^2\left[g(x,y,t)\ast f(x,y)\right] ガウスの差:[g1(x,y,t)∗f(x,y)]−[g2(x,y,t)∗f(x,y)][g1(x,y,t)∗f(x,y)]−[g2(x,y,t)∗f(x,y)] \left[g_1(x,y,t)\ast f(x,y)\right] - \left[g_2(x,y,t)\ast f(x,y)\right] リッカーウェーブレットとの畳み込み:リッカー(x、y、t )∗ f(x 、y)Ricker(x,y,t)∗f(x,y)\textrm{Ricker}(x,y,t)\ast f(x,y) 私が現在理解しているように:DoGはLoGの近似です。どちらもブロブ検出で使用され、どちらも基本的にバンドパスフィルターとして機能します。メキシカンハット/リッカーウェーブレットを使用した畳み込みでも、ほぼ同じ効果が得られるようです。 私は3つのテクニックすべてをパルス信号に適用しました(マグニチュードを類似させるために必要なスケーリングを使用)、結果はかなり近いです。実際、LoGとRickerはほとんど同じに見えます。私が気付いた唯一の本当の違いは、DoGとの違いです。LoGとRickerではなく、調整する2つの無料パラメーター(と)がありました。また、ウェーブレットが最も簡単/最速であることがわかりました。これは、DoGの場合は1回のたたみ込み(カーネルのFTを使用したフーリエ空間での乗算によって行われる)と、DoGの場合は2回、LoGの場合はコンボリューションとラプラシアンで実行できるためです。 σ 1σ1σ1\sigma_1σ1σ1\sigma_1 各手法の比較の長所/短所は何ですか? 一方が他方より優れているさまざまなユースケースはありますか? また、はカーネルとして実装できるため、LoGとRickerは別々のサンプルで同じ操作に縮退すると直観的に考えています。 。[ - 1 、2 、- 1 ]∇2∇2\nabla^2[ − 1 、2 、− 1]または⎡⎣⎢0− 10− 14− 10− 10⎤⎦⎥2D画像用[−1,2,−1]or[0−10−14−10−10]for 2D images\begin{bmatrix}-1,& 2,& -1\end{bmatrix}\quad\text{or}\quad\begin{bmatrix} 0 & -1 & 0 \\ -1 & 4 …

3
周波数を維持しながら音楽の再生を遅くする
音楽オーディオを遅い速度で再生すると、ピッチ(周波数)が下がります。周波数を同じに保ちながら曲の再生を遅くするツールと理論はありますか?ウィンドウ化されたフーリエ変換またはウェーブレット変換を実行できると思います。ウィンドウサイズを事前に選択するか、ウェーブレットベースを動的に選択する必要があるようです。それを行うための具体的で詳細な理論と応用はありますか?

1
FSK復調、ビットタイミング回復
私は現在、音響FSK変調と復調を実装しています。私は信号処理の専門家ではないので、ビットタイミングの回復について助けていただければ幸いです。現在、各トーンに対して2つの整合フィルターを使用して復調器を実装しています(非コヒーレント検出の場合、位相の差はです)。基本的に、各フィルターの出力は、振幅の異なるピークです。2つの質問があります。90∘90∘90^{\circ} ビットタイミング回復を実行するにはどうすればよいですか? パケット同期プリアンブル(チャープ、バーカーコード、ゴールデンコードなど)には何をお勧めしますか? 私はガードナーアルゴリズムをグーグルアウトしましたが、それが適用可能かどうか、またその方法はわかりません。現在、サウンドカードを使用してビットレート800 bpsの2つの周波数で作業していると考えてください。

1
パワースペクトル密度とエネルギースペクトル密度
私はウィキペディアで以下を読みました: パワースペクトル密度: 上記のエネルギースペクトル密度の定義は、過渡現象、つまり信号のフーリエ変換が存在するパルス状の信号に最適です 。たとえば、定常的な物理プロセスを説明する継続的な信号の場合、単純な例のように、信号または時系列の電力がさまざまな周波数にどのように分布するかを説明するパワースペクトル密度(PSD)を定義する方が理にかなっています。以前に与えられました。 その段落はよくわかりません。最初の部分は、「一部の信号ではフーリエ変換が存在しない」と述べています。 フーリエ変換が存在しないのは(検討しているコンテキストでは)どの信号に対してであり、したがって、エネルギースペクトル密度を使用するのではなく、PSDに頼る必要がありますか? パワースペクトル密度を取得するときに、直接計算できないのはなぜですか?なぜそれを推定する必要があるのですか? 最後に、このトピックでは、PSDを経時的に計算するときにKayserウィンドウを使用する方法について読みました。PSD推定におけるこれらのウィンドウの目的は何ですか?

3
デジタルディストーションエフェクトアルゴリズム
私はUdoZölzerによる124〜125ページのディストーションエフェクトについてのDAFXブックを読みましたが、ディストーションの適切なシミュレーションは関数によって与えられると述べています。 f(x)=x|x|(1−ex2/|x|)f(x)=x|x|(1−ex2/|x|)f(x)=\frac{x}{|x|}\left(1-e^{x^2/|x|}\right) 誰かがこの式と私たちが得る信号の種類を説明できますか? 私が理解していることから、「x」はサンプリングされた信号なので、これは一連の数値です。| x |とは 平均?各サンプル値のxの絶対値を参照していますか? したがって、この歪み効果のシミュレーションを実装したい場合は、 xの長さを知る必要があります(サンプル数で指定されます) ループでは、サンプル値ごとにこの式を計算する必要があります ループが終了した後、歪んだ信号が(デジタル形式で)表示されます その後、聞こえるようにアナログ信号に変換する必要があります。

4
基数4 FFTと基数2
基数4の実装は、同等に適切にコーディングされた基数2 FFTよりも高速ですか?もしそうなら、なぜそれはより速くなりますか?
10 fft 

3
離散単位ステップ関数に対する応答を知るだけで、離散システムのインパルス応答を取得する方法はありますか?
継続的にそれは可能でした。 u(t)⟶system⟶y(t)⟹δ(t)=du(t)dt⟶system⟶dy(t)dt=h(t)u(t)⟶system⟶y(t)⟹δ(t)=du(t)dt⟶system⟶dy(t)dt=h(t) u(t){\longrightarrow} \boxed{\quad\textrm{system}\quad} {\longrightarrow} y(t)\implies \delta(t)=\frac{du(t)}{dt}{\longrightarrow}\boxed{\quad\textrm{system}\quad}{\longrightarrow} \frac{dy(t)}{dt}=h(t) 同じことは離散時間システムにも当てはまります。つまり、 δ[t]=du[t]dtwhere:{δ[t]u[t]is the discrete time deltais the discrete time unit step functionδ[t]=du[t]dtwhere:{δ[t]is the discrete time deltau[t]is the discrete time unit step function \delta[t]=\frac{du[t]}{dt} \quad\textrm{where:}\begin{cases} \delta[t] &\textrm{is the discrete time delta}\\ u[t] & \textrm{is the discrete time unit step function}\end{cases} 離散単位ステップの応答を知るだけで、離散システムのインパルス応答を取得する方法はありますか?


3
満たされたガラス物体の検出
私はこの質問からstackoverflowでここに送信されました。質問が具体的すぎて、ここの方法ではない場合は失礼します:) タスクは、特定の液体が入っているガラスを見つけることです。写真を見せて、私が達成しようとしていることと、これまでに達成しようとしていたことを、写真の下の説明で説明しましょう。 写真:(写真とリンクを投稿するには、少なくとも10の評判が必要なようです。リンクはこれを行う必要があります:(そうでなければ、スタックオーバーフローの質問を見ることができます) 詳細な説明:opencvで特定の形状のガラスを検出するアルゴリズムを実装しようとしました(ガラスは異なるカメラショットの角度/距離によって変換される可能性があります)。他の形の他のグラスもあります。私が探しているガラスも、他の色を含むガラスと区別するために、いくつかの着色された液体で満たされます。 これまでのところ、私はSIFT特徴抽出機能を使用してグラスのいくつかの特徴を見つけ、それをグラスの中にある他の写真と照合することを試みました。 このアプローチは、ガラスが非常に特定の位置にあり、背景が学習画像に似ているような非常に特定の条件でのみ機能しました。問題はまた、ガラスが3Dオブジェクトであり、そこから特徴を抽出する方法がわからないことです(おそらく、異なる角度からの複数の写真がリンクされているのでしょうか?)。 今、私は他にどんなアプローチが使えるのか分かりません。私はこれについていくつかの手掛かりを見つけましたが(ここでは/programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338)、リンクが壊れているようです。 別の問題は、そのようなガラスのさまざまな「空のレベル」を検出することですが、ガラス自体を適切に見つけることさえできませんでした。 このタスクでのアプローチについての推奨事項は何ですか?ローカル3Dオブジェクトフィーチャーを見つけるには別の方法を使用する方が良いでしょうか?それとも、他のアプローチを完全に使用する方が良いでしょうか?複数の写真のセットからオブジェクトを「学習」するアルゴリズムについて聞いたことがありますが、実際にはこれを見たことがありません。 任意のアドバイスは本当にいただければ幸いです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.