信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

1
通話音声を無音/無音に分割する方法は?
私の問題は、バックグラウンドノイズのエネルギーがわからないことです。そのため、エネルギーをしきい値処理することはできません。処理はリアルタイムで行われ、500msec程度で判断します。理想的には、私は静かな子音が無音でないと考えたいです。

1
変換の「収束領域」はどのように機能しますか?
私はDSPの初心者であり、変換とその収束領域(ROC)について少し疑問があります。ZZ\mathcal Z 変換とは何か知っています。しかし、ROCの理解に問題があります。まず第一に、私はとと少し混乱しています。私はこれらの用語を交換することで簡単に捕まります。ROCが変換が存在する領域を定義していることを知っています。ウェブと私の本から、こう述べています: X (z )x (z )ZZZ\mathcal ZX(z)X(z)X(z)x(z)x(z)x(z)ZZ\mathcal Z 場合有限時間シーケンスで、次にROC全体で -plane、おそらく除く外または。有限期間シーケンスとは、有限間隔で非ゼロのシーケンスですz z = 0 | z | = ∞ nは1 ≤ N ≤ N 2x[n]x[n]x[n]zzzz=0z=0z = 0|z|=∞|z|=∞\lvert z\rvert = \inftyn1≤n≤n2n1≤n≤n2n_1 \le n \le n_2 そして後でそれは言う: 場合、項が存在するため、ROCには含まれません。場合次に和が無限大になり、したがって、ROCは含まない。z − 1 z = 0 n 1 < 0 | z | = …

1
コンピュータステレオビジョンで、「見る」とはどういう意味ですか?
理解しようとするには、この答えに私の以前の質問に、それが重要である理由、誰かが焦点距離は、カメラと被写体との間の間隔に比べて大きいときにカメラが同一平面上にないことを説明することができますか? 「調べる」とはどういう意味ですか? ビュー/カメラの数が増えると、これは変わりますか?

3
アンダーサンプリング後のエイリアシングを防ぐためのアンチエイリアスプレフィルターとは何ですか?
アンダーサンプリングの結果、エイリアシングが発生し、ナイキストレートの半分より高い周波数は区別できないことがわかっています。ナイキストレートの半分よりも高い周波数(ナイキスト周波数)と低周波数(すべての部分)を使用したいベースバンド信号があります。私はこのパスで特別なプロセスを持っています: Input⟶anti-aliasing pre-filter⟶decimate⟶FFT⟶tune on special partof the signalInput⟶anti-aliasing pre-filter⟶decimate⟶FFT⟶tune on special partof the signal\textrm{Input}{\longrightarrow}\boxed{\textrm{anti-aliasing pre-filter}}{\longrightarrow}\boxed{\textrm{decimate}}{\longrightarrow}\boxed{\textrm{FFT}}{\longrightarrow}\boxed{\textrm{tune on special part}\\{\textrm{of the signal}}} 人々が通常アンチエイリアシングフィルターとして使用するローパスポストフィルターは、私にとって重要な高周波を除去します。高周波を失わないデジタルまたはアナログのアンチエイリアシングプレフィルターとは何ですか。

1
家庭用電化製品の空間分解能をどのように推定できますか?
私はステレオビジョンアプリケーションを検討しており、実際に機能する例の1つは、2つのUSBウェブカムを使用して、一緒にマウントし、キャリブレーションすることです。 そのようなセットアップの理論的な空間分解能を推定する方法はありますか?目標は、盲目的に購入やテストをするのではなく、事前に比較的自信を持つことです。 EXACT解像度では、レンズなどのためにテストセットアップが必要になる可能性があることを理解しています。 この決定を行うにはどのような情報が必要ですか?最小焦点距離と最大解像度で十分でしょうか?ピクセル密度は明らかにこれに何らかの役割を果たし、ほとんどのデジタルカメラ(非常に高い最大解像度を持っている)で宣伝されています。見積もりを計算しようとした場合、これをどのように組み込む必要がありますか? 例として、次の設定を検討してください。 4インチの最小焦点距離(MS HDウェブカメラの焦点距離) 最大解像度1920x1080 オブジェクトは数センチ程度です 1/10ミリメートルのオーダーの詳細 カメラとオブジェクトの間の距離は小さめである必要があります。ここでの答えに基づいて、15 cmから25 cmのようなものを検討しました。 カメラ間の距離、カメラの数は柔軟にすることができますが、小さめの範囲に留まる必要があります...カメラに$ 10,000が必要な場合、それは悪いソリューションです

2
勾配ベースのハフ変換を実装する方法
私はエッジ検出にハフ変換を使用しようとしています、そして基礎として勾配画像を使用したいと思います。 私はこれまでやっていること、画像所与のIサイズの[M,N]とその偏導関数gx、gy、各画素の勾配角度を計算することですthetas = atan(gy(x,y) ./ gx。同様に、勾配の大きさをとして計算しmagnitudes = sqrt(gx.^2+gy.^2)ます。 ハフ変換を作成するには、次のMATLABコードを使用します。 max_rho = ceil(sqrt(M^2 + N^2)); hough = zeros(2*max_rho, 101); for x=1:M for y=1:N theta = thetas(x,y); rho = x*cos(theta) + y*sin(theta); rho_idx = round(rho)+max_rho; theta_idx = floor((theta + pi/2) / pi * 100) + 1; hough(rho_idx, theta_idx) = hough(rho_idx, theta_idx) + …

2
連続的に時変デジタルフィルターを設計する方法?
時間とともに滑らかに変化する周波数(「掃引」と呼ばれる)の信号を含む離散時系列があります。時間とともに線形に変化するカット周波数と一定のカットスロープを持つ有限長の離散フィルター(私の場合はローパスまたはバンドパス)を設計するにはどうすればよいですか? 編集:信号は"trace"地震源のサンプルです-ゆっくりと変化する周波数の振動を地球に送信する地震バイブレーター。時間の経過に伴う周波数の依存性(スイープ)は既知です(線形にする、。ただし、動作する別のバイブレータがある可能性があるという問題があります。自分自身で、そしてタスクはこのバイブレーターの痕跡に他の物からの不要な信号を避けることです。f(t)=f1∗(1−t)+f2∗t)f(t)=f1∗(1−t)+f2∗t)f(t)=f_1*(1-t)+f_2*t)"band-guard"

3
正弦波のFFT結果を確認するにはどうすればよいですか?
FFTアルゴリズムへの入力として、オーディオファイル(正弦波)1000Hzが与えられました。アレイに8192のパワースペクトルサンプルがあります。 出力が正しいか間違っているかを確認する最も簡単な方法は何ですか? サイレントオーディオファイルを指定すると、すべてのサンプルの出力がゼロになります。サイン波では、o / pは20(0番目のサンプル)から26059811(743番目のサンプル)に増加し、徐々に40に減少します。 出力範囲がわかれば、FFTが機能しているかどうかを技術的に証明できます。 どんなアイデアも役に立ちます。 技術的な疑問については、このリンクを参照してください。
9 fft  audio 

1
携帯電話のリアルタイムオーディオで人間の音声を検出する
Androidアプリの開発を検討しています。機能の一部として、アプリは3〜5秒の音声をランダムにサンプリングし、人間の音声が含まれているかどうかを分類する必要があります。この概念が音声アクティビティ検出と呼ばれていることを理解していますか? これを携帯電話に実装する最良の方法は何でしょうか。エネルギーベースの機能としきい値を使用して基本的なシステムを開発しました。MFCCやフォルマントなどの機能を使用して、ノイズの影響を受けにくいものを見つけたいと思っていますか?私はいくつかの論文を読みましたが、それらのほとんどはデータの収集とモデルのトレーニングを必要とします。リアルタイムで動作するライブラリやフレームワークはありますか?

2
ストリーミングオーディオのフィルタリング
103データポイント()のようなものが与えられると、DFTは103周波数値を返します。次に、高周波のフィルタリングなどを行うには、DFTの高周波値をゼロに設定し、逆DFTを実行して、高周波のない元の信号を表す103データポイントを取得します。N=103N=103N=103 これは、103のすべてのデータポイントを一度に与えた場合、私には意味があります。しかし、かなり大きいオーディオWAVファイルのストリーミングについてはどうでしょう(たとえば、)。高周波をフィルタリングしたい場合は、10 5ポイントのデータ全体について説明したアプローチが論理的に理にかなっています。しかし、再生のためにWAVファイルをストリーミングする場合、これは妥当ではありません。オーディオファイルのストリーミング再生を高周波フィルター処理するにはどうすればよいですか?N=105N=105N=10^510510510^5

2
short int(16ビットPCM)サンプルのローパスフィルタリング
16ビットPCMサンプルとして与えられたオーディオを処理するソフトウェアを書いています。処理の最初の段階では、特定の周波数範囲(特定のカットオフ周波数より上)のエネルギー(または総変動)を計算します。 私が現在行っていることは、元の信号のエネルギーからローパスフィルター処理された信号のエネルギーを差し引くことです。多くの処理が整数サンペルを浮動小数点表現に変換することに専念していることがわかりました。 だから私の質問は、整数サンプルを浮動小数点に変換せずにフィルタリングするための技術はありますか?

5
1次の再帰フィルターの計算をベクトル化するにはどうすればよいですか?
次の式で説明できる単純な単極ローパスフィルター(パラメーター平滑化用)があります。 y[ n ] = (1 − a )y[ n − 1 ] + a x [ n ]y[ん]=(1−a)y[ん−1]+aバツ[ん] y[n] = (1-a) y[n-1] + a x[n] 私が使用しているアーキテクチャは、複数のベクトル化された計算を並行して実行できる単一命令、複数データ(SIMD)命令にアクセスできます。この機能を利用したいのですが、このような再帰的フィルターでそれを行う方法がわかりません。問題は、すべての計算が以前の結果を必要とすることです。

2
圧縮センシングとスパースコーディング
明らかに、「圧縮センシング」と呼ばれる同じフィールドを参照するために使用される異なる用語があります(このWikiページを参照):圧縮センシング、圧縮サンプリング、またはスパースサンプリング。「スパースセンシング」についてはどうでしょうか。 それにもかかわらず、インターネット検索の結果、「スパースコーディング」と呼ばれるものは、上で引用した他の用語の「圧縮センシング」フィールドを指していないようです。 圧縮センシングとスパースコーディングの違いは本当にありますか? 辞書学習についてはどうですか?

2
フィルタリングされた信号とファイル圧縮のパラドックス
1.元の状況 元の信号を、サンプルの数とチャネルの数をn含む列データマトリックスチャネルデータx:mxn (single)として持っm=120019ていn=15ます。 また、フィルターされた信号をフィルターされた列データマトリックスとして持っていますx:mxn (single)。 元のデータは主にランダムで、センサーピックアップからのゼロを中心にしています。 の下でMATLAB、saveオプションなしでbutter、ハイパスフィルターとして、およびsingleフィルタリング後のキャストに使用しています。 save本質的にはバイナリHDF5フォーマットにGZIPレベル3 圧縮を適用するため、ファイルサイズは情報コンテンツの優れた推定値、つまりランダム信号では最大、一定信号ではゼロに近いと想定できます。 元の信号を保存すると2MBのファイルが作成され、 フィルタリングされた信号を保存すると、5MBのファイル(?!)が作成されます。 2.質問 フィルター処理された信号に含まれる情報が少なく、フィルターによって削除されることを考えると、フィルター処理された信号のサイズが大きくなる可能性はありますか? 3.簡単な例 簡単な例: n=120019; m=15;t=(0:n-1)'; x=single(randn(n,m)); [b,a]=butter(2,10/200,'high'); xf=filter(b,a,x); save('x','x'); save('xf','xf'); 元の信号とフィルター処理された信号の両方に対して6 MBのファイルを作成します。これは、純粋なランダムデータを使用するため、以前の値よりも大きくなります。 ある意味では、フィルター処理された信号がフィルター処理された信号よりもランダムであることを示します(?!)。 4.評価例 以下を検討してください。 ランダム信号から作成されたフィルター バツrバツrx_r ガウスノイズから 〜N(0 、1 )〜N(0、1)\sim N(0,1)、および一定の信号 バツcバツcx_c に等しい 111。 データ型、すなわちのみレットの使用を無視しdouble、 データサイズを無視します。つまり、1 MBの1つの列データベクトルを使用します。 n = 125000ん=125000n=125000、 m = 1メートル=1m=1。 考えてみましょう aaaテスト用のランダム性インデックスとしてのパラメータ:x = αバツr+ …

3
AWGNチャネルの容量
AWGNチャネルを介した通信の基本的な概念の理解に戸惑っています。離散時間AWGNチャネルの容量は次のとおりです。 C=12log2(1+SN)C=12log2⁡(1+SN)C=\frac{1}{2}\log_2\left(1+\frac{S}{N}\right) そして、それは入力信号がガウス分布を持っているときに達成されます。しかし、入力信号がガウスであることはどういう意味ですか?それは、コードワードの各シンボルの振幅がガウスアンサンブルから取得されなければならないことを意味しますか?特別なコードブック(この場合はガウス)を使用することとM-aryシグナリングで信号を変調することの違いは何ですか(MPSKなど)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.