信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

4
高次のスプライン補間
次数が3を超えるスプライン補間(3次スプラインを超えるものすべて)には非常に高い補間エラーがあるため、予測はほとんどひどいことに気付きました。私は、3次スプライン(3次)が最適であり、それ以上のものは悪い考えであることを簡単に示す、さまざまな講義ノート、スライド、およびYouTubeビデオに出くわしました。しかしながら、これらの情報源は、なぜこれが事実であるかについて決して言及しません。 誰もがこれが事実である理由を私に説明できますか、おそらくこれを説明するジャーナル/会議論文へのタイトル/リンクを与えたり、多分証拠を与えることさえできます。

1
離散ガウスカーネルはDFTの固有関数ですか?
ガウス関数はそれ自体に変換するので、フーリエ変換の固有関数ですよね? しかし、関数のテールが切り捨てられているため、DFTでサンプリングされたガウスについてはこれは正しくありません。 ウィキペディアでは、こことここで、離散サンプリングされたガウスとは異なる離散ガウスカーネル について説明しています。 連続ガウスが連続拡散方程式の解であるのと同じように、それが離散拡散方程式(離散空間、連続時間)の解であるという点で、連続ガウスの離散対応物 それは、DFTがそれ自体に正確に変換することを意味しますか?そうでない場合、同様のガウスのような関数はありますか?

2
FFT周波数分解能
FFTの理解に問題があります。として計算されたスペクトルの周波数分解能は sampling ratenumber of FFT pointssampling ratenumber of FFT points\frac{\textrm{sampling rate}}{\textrm{number of FFT points}}または?sampling rate0.5 * number of FFT pointssampling rate0.5 * number of FFT points\frac{\textrm{sampling rate}}{\textrm{0.5 * number of FFT points}} これは、スペクトルが実数値の入力に対して対称であるためです。したがって、 Hzおよび = 1024であるとします。ここで、はFFTポイントの数です。さて、周波数分解能は Hzまたは Hzですか?fs=1000fs=1000f_s = 1000NNNNNN1000 Hz1024=0.97661000 Hz1024=0.9766\frac{1000 \textrm{ Hz}}{1024} = 0.97661000 Hz0.5∗1024=1.95311000 Hz0.5∗1024=1.9531\frac{1000 \textrm{ Hz}}{0.5 …

1
実際の信号にフーリエ変換が存在しない例は?
ここでこの質問に基づいて知りましたが、基本的に、フーリエ変換が存在しない場所に実際の信号が存在することはありますか?信号が有限エネルギーでない場合、そのフーリエ変換は存在しないので、そのような信号の実際の例(ある場合)は何でしょうか?

2
オーディオダイナミックレンジ圧縮の実装を支援する
JavaScriptでオーディオダイナミックレンジ圧縮を実装しようとしています(WebオーディオAPIを使用していません)。 サウンド技術者向けの記事は多く、高レベルのドキュメントもいくつかありますが、デジタルダイナミックレンジ圧縮を実際に実装するための参考資料は見つかりませんでした。 私が理解していることから、整流された信号の計算には少なくとも3つのステップがあります。 入力レベルの計算 信号に適用するゲインを計算する ゲインを適用する 私はオーディオをブロックで処理するので、1)は1つのブロックのRMSを計算することを考えていました 適切なリファレンスへのポインタはありますか?または、これを実装するために必要な手順を少し説明してくれる人はいますか?

3
メルスペクトログラムからスペクトログラムへの変換
STFT(短時間フーリエ変換)を抽出し、マグニチュードスペクトルを使用した一連の曲がありますメルフィルターバンク行列を使用してメルスペクトログラムを計算するため、。このプロセスを逆にする方法、つまりメルスペクトログラムからスペクトログラムに戻す方法はありますか。メルスペクトログラムにいくつかの次元削減を実行し、低次元からメルスペクトログラムを再構築しました。ここで、再構築されたメルスペクトログラムからオーディオ信号を再生成したいので、最初にスペクトログラムを再構築し、次にオーディオ信号を再構築します。|S||S||S|MMMバツ= ログ(M× | S| )X=log⁡(M×|S|)X=\log(M\times |S|) 問題は、メルビンフィルターバンク行列が正方行列ではないことです。これは、周波数ビンの数を減らすため、逆数を次のように使用できないためです。。から変換できる逆伝達関数のように、逆マッピングを生成する方法はありますか?MMMS^=M− 1exp(X)S^=M−1exp⁡(X) \hat{S}=M^{-1}\exp(X)バツXXSSS

1
1 / nオクターブスムージング
FFTで取得した周波数応答を考慮して、1 / nオクターブ平滑化を適用します。どのフィルターを使用する必要がありますか?たぶん誰かが良い参考文献(この件に関する論文や本)を指摘するかもしれません。
8 fft  audio  smoothing 

3
FFTを使用するときに2の累乗を使用することはどのくらい重要ですか?
ここに問題があります。データの2D配列があります。最初の列は時間データを表し、2番目の列は時間データに基づく正弦波応答データを表します。私はfftを適用し、予想どおり特定のビンで私の周波数(最初に使用したもの)を取得し、そのビンから振幅と位相角を見つけます。今問題は同じ設定ですが、より多くのデータポイントを使用して、fftを再度適用し、ビン番号を変更します(これは正常であり、期待どおりの場所です)、振幅は同じですが位相角違います)最初にこれは正常ですか?第二に、私はどのようなアプローチを取るべきですか?ありがとうございました PS:どちらのセットアップ(上記)も2の累乗の長さのデータを提供しません。たとえば、最初のものは1620データポイントを提供し、2番目は1745データポイントを提供するため、両方から次の2の累乗を取る必要があります。はじめに?
8 fft  phase 

3
信号を共役対称にする方法は?
以下の簡単な周波数領域バンドパスフィルタリング操作を考えてみましょう。。。 NFFT = 128; x = randn(NFFT,1); H = zeros(NFFT,1); H(10:20) = 1; y = ifft(H.*fft(x), 'symmetric'); ifft演算に共役対称フラグを使用しているため、これにより実際の出力が得られます。 Hの共役対称バージョンを返す関数が必要なので、Matlabのifftの組み込みの対称オプションに依存する必要はありません。NFFTには任意の正の整数を指定できます。これはこのようなものと呼ぶことができます。。 H(10:20) = 1; H = MakeConjSym(H);

1
画像のノイズ除去でFFTを正しく適用する方法
画像からノイズを取り除くためのプログラム(Qtウィジェット/ c ++)を書いています。ノイズ除去方法として、非局所平均法を選択しました。この方法は、復元された画像の信じられないほどの品質を持っています(それがOpenCVで唯一のノイズ除去方法である理由です)が、計算コストが非常に高いため、この方法の多くの変更されたバリアントを作成しました(一部はマルチスレッド化、一部はアルゴリズム処理)。しかし、私はFFTを含む問題を抱えています 私はこの記事のすべての手順(1ページのみ、1430)を実行しましたが、FFTの部分を除いてすべてが完全に機能します。紙には2行しかありませんが、理解できません。 この問題は何ヶ月もの間私を悩ませてきました、どんな助けや洞察も大いに応用されます。 質問の短縮版:画像上の2つの配列の合計平方差(上に1つ、中央に1つ、値は色)をすばやく取得するにはどうすればよいですか?(O(n ^ 2)は莫大なコストであり、この種の演算はたくさんあります(上記の論文による)、これはO(n * log n)でFFTを介して行うことができます(この2つの配列が何らかの形で循環たたみ込みを形成していると言います) )



2
背景の減算で照明の問題に対処するための最先端の方法は何ですか?
私はこれについてよく引用されたアプローチを見つけるのに苦労してきました。基本的に、私はさまざまな背景減算アルゴリズムを試していますが、照明の変化が大きい場合(たとえば、シーン内のウィンドウが特定の時間に大きなグレアを得る場合)は、うまく機能しないようです。 質問は(比較的)単純です。突然の照明の変化を伴うバックグラウンド減算の最先端の方法は何ですか?私のシナリオは監視カメラです。

1
負の数の固定小数点乗算
私は簡単な問題に困惑しています。Q0.3形式の2つの4ビット数値があるとします。1つの符号ビットと3つの小数ビット。だから私は表すことができます−1−1-1 まで 0.8750.8750.875。 今、私はこの計算をしたいとしましょう: −0.25×0.875−0.25×0.875-0.25 \times 0.875。それは: −223×723−223×723 \frac{-2}{2^3} \times \frac{7}{2^3} つまり、私は増殖しています 111011101110 (−2−2-2) 沿って 011101110111 (777)。もちろん答えは− 0.21875−0.21875-0.21875 または − 0.25−0.25-0.25 最も近いQ0.3番号を使用します。 働きましょう。 1110 × 0111 = 011000101110×0111=01100010 1110 \times 0111 = 01100010 Q0.6の数値で見ると 1.1000101.1000101.100010、これは − 0.46875−0.46875-0.46875私の本によって。なぜこれが正しくないのですか?の答えを期待しています1.1100101.1100101.110010 (− 0.21875−0.21875-0.21875)。 何が悪いのでしょうか?

2
隠れマルコフモデルによるジェスチャー認識
現在、ジェスチャー認識システム(Androidアプリケーション用)に取り組んでいます。手の輪郭を抽出できる画像処理段階が完了したと思います(今のところ、背景の減算を避けるために手袋を着用しています)。 手の楕円/長方形、重心も手の「重要な」形状特徴として取得しています。 私の問題は、隠れマルコフモデルによる画像の分類の前の次の段階が何であるかを示す多くの文献がないことです。この「特徴抽出」の段階は非常にあいまいです。 現在、コンターの角度のリストを取得しています(これは、限られた数の角度を取得するために概算されています) 問題は、私が次に何をすべきかについて無知であることです。「HMMを使用した形状分類」として文献を検索しても、次に何をしたらよいかわかりません。 HMMのツールとして、JaHMMを使用する予定です。しかし、この分類段階への入力が何になるかわからないので、この段階ではツールを試す方法がわかりません! 高速フーリエ記述子、曲率記述子、Bスプラインなど、いくつかの文献で見つけた関数のリストに遭遇しました。しかし、私はこれらの関数を現在のデータ(つまり、角度のリスト、たとえば-63、154、3、23、54など)に適用する方法については無知です。 更新1: 情報をくれてありがとう。@ピーター・K ポーズについて:私は指で綴られたアメリカ手話の単語のセット、例えば「犬」->「d」「o」「g」(3つの状態); しかし、何をするか決めていない瞬間。 私は現在、以下のような、どのような種類の情報を抽出する必要があるかを確認するために、いくつかの論文を読んでいます。 手の重心 動きの角度 特定のポイントから手の輪郭の別のポイントまでの距離(など) 今、私がやりたいことを示しているように見える論文に遭遇しました、私にはわかりません: http://espace.library.uq.edu.au/eserv.php?pid=UQ:10700&dsID=n0273.pdf 私は現在セクション5-ベクトル量子化を読んでいます(この用語を以前聞いたことはありますが、実際にそれが何であるかはわかりません。図5では、複雑なアルゴリズムがあるようです。正しく理解すれば、達成した値のセットを変換します。手(前述)から1桁に変換します。これを観測シーケンスとして使用して、1つの特定の標識のHMMをトレーニングできます。私は正しい道を進んでいると思いますか?(私はAndroid、(NDK)で作業しています) 、JaHMMをHMMツールとして見つけ、OpenCVを画像処理に使用していることを発見しました。 @Peter K.回答ありがとうございます。データ生成については、個人データセットを作成した後、このペーパーの手順に従うことを計画していました(セクション4および5) http://www.i.ci.ritsumei.ac.jp/~shimada/papers/vi02 -tanibata.pdf 更新2:ジェスチャーは{姿勢a、姿勢b、姿勢c}で構成されることを覚えておいてください 私は今、何らかの形の分類アルゴリズムを利用する必要があると考えています。つまり、現在、一連の特徴ベクトルがあります。 姿勢A:[周囲の楕円の角度、高さ:幅の比率] 0.802985 33.909615 0.722824 31.209663 0.734535 30.206722 0.68397 31.838253 0.713706 34.29641 0.688798 30.603661 0.721395 34.880161 姿勢B:[姿勢Aと同じ構造] 0.474164 16.077467 0.483104 14.526289 0.478904 14.800572 0.483134 14.523611 0.480608 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.