タグ付けされた質問 「frequency-spectrum」

時間領域信号の周波数スペクトルは、周波数領域におけるその信号の表現です。

6
画像の場合、周波数領域は何を示していますか?
私は画像の周波数領域について学んでいました。 波の場合の周波数スペクトルを理解できます。波に存在する周波数を示します。我々はの周波数スペクトルを描く場合cos(2πft)cos⁡(2πft)\cos(2\pi f t)、私たちはでインパルス信号を取得−f−f-fと+f+f+f。また、対応するフィルターを使用して特定の情報を抽出できます。 しかし、画像の場合、周波数スペクトルは何を意味しますか?OpenCVで画像のFFTを取得すると、奇妙な画像が表示されます。この画像は何を示していますか?そして、そのアプリケーションは何ですか? 私はいくつかの本を読みましたが、それらは物理的な意味よりも多くの数学的な方程式を与えます。だから誰も画像処理でそれを簡単に適用して画像の周波数領域の簡単な説明を提供できますか?

2
PSDを計算する多くの方法があるのはなぜですか?
Welchの方法は、均等にサンプリングされた時系列のパワースペクトル密度(PSD)を計算するための私の頼れるアルゴリズムでした。PSDを計算する方法は他にもたくさんあることに気付きました。たとえば、Matlabでは次のように表示されます。 バーグ法を使用したPSD 共分散法を使用したPSD ピリオドグラムを使用したPSD 修正共分散法を使用したPSD マルチテーパー法(MTM)を使用したPSD ウェルチ法を使用したPSD Yule-Walker AR法を使用したPSD 短時間フーリエ変換を使用したスペクトログラム スペクトル推定 これらのさまざまな方法の利点は何ですか?実用的な質問として、いつウェルチの方法以外のものを使用したいのですか?

3
「複雑なサンプリング」はナイキストを破壊できますか?
複雑な信号のサンプリングはナイキストのサンプリングレートに従う必要はないが、実際には半分のナイキストサンプリングレートで除去できるという逸話を聞いたことがあります。これに何か真実があるのだろうか? ナイキストから、信号を明確にサンプリングするには、少なくともその信号の帯域幅の2倍以上の帯域幅をサンプリングする必要があることがわかっています。(ここで、Wikiリンクで行うように帯域幅を定義しています。別名、正の周波数の占有率です)。つまり、信号が-BからBに存在する場合、ナイキストを満たすために少なくとも2 * B以上をサンプリングする必要があります。この信号をfcまで混合し、バンドパスサンプリングを行いたい場合、少なくとも4 * B以上をサンプリングする必要があります。 これは、実際の信号に最適です。 私の質問は、複雑なベースバンド信号(別名、周波数スペクトルの片側にのみ存在する信号)を少なくとも2 * B以上のレートでサンプリングする必要はないが、実際にはできるというステートメントに真実があるかどうかです。少なくとも> Bのレートで適切にサンプリングされていますか? (これが当てはまる場合、これは単なるセマンティクスであると考えがちです。なぜなら、回転フェーザーを完全に表すためにサンプル時間ごとに2つのサンプル(1つは実数、1つは虚数)を取得する必要があるためです。これにより、厳密にナイキストに引き続き従います。 ) あなたの考えは何ですか?

4
いびきと音声を区別する方法は?
背景: 私は(に言及したiPhoneアプリに取り組んでいる中で 、いくつかの 他 の記事)その1が眠っていると判断しながら呼吸/いびき「に耳を傾ける」「スリープラボ」の前の画面として(睡眠時無呼吸の兆候がある場合テスト)。アプリケーションは、主にいびき/息を検出するために「スペクトル差」を使用し、睡眠ラボの録音(実際には非常にノイズが多い)に対してテストすると、非常にうまく機能します(約0.85--0.90相関)。 問題: ほとんどの「ベッドルーム」ノイズ(ファンなど)をいくつかの手法でフィルタリングし、人間の耳では検出できないS / Nレベルで呼吸を確実に検出できることがよくあります。問題は音声ノイズです。バックグラウンドでテレビやラジオを走らせることは珍しくありません(または単に誰かが遠くで話していることもあります)。また、声のリズムは呼吸/いびきとほぼ一致します。実際、私はこのアプリを介して故作者/ストーリーテラーのビル・ホルムの録音を実行しましたが、それは本質的にリズム、レベルの変動性、および他のいくつかの測定のいびきと区別できませんでした。(少なくとも彼が起きている間は、睡眠時無呼吸がなかったようです。) ですから、これは少し長めのショット(そしておそらくフォーラムのルールの延長)ですが、私は音声を区別する方法についていくつかのアイデアを探しています。いびきをなんとかフィルタリングする必要はありません(それはいいと思います)が、音声で過度に汚染された「ノイズが多すぎる」サウンドとして拒否する方法が必要なだけです。 何か案は? 公開されたファイル: dropbox.comにいくつかのファイルを配置しました: Epica_Storm_the_Noisy_Sorrow_minus_10dB_wav.dat Holm_5db_noisy_wav.dat recordedFile20120408010300_first_ten_wav.dat 最初の曲はかなりランダムなロック(おそらく)音楽で、2番目の曲は故ビルホルムのスピーチの録音です。両方(いびきと区別するために「ノイズ」のサンプルとして使用します)は、信号を難読化するためにノイズと混合されています。(これにより、それらを識別する作業は非常に困難になります。)3番目のファイルは、真に最初の3分の1がほとんど呼吸し、真ん中の3分の1が呼吸/いびきの混合で、最後の3分の1はかなり安定したいびきです。(ボーナスで咳が出ます。) 多くのブラウザではwavファイルのダウンロードが非常に難しくなるため、3つのファイルはすべて「.wav」から「_wav.dat」に名前が変更されました。ダウンロード後、名前を「.wav」に戻すだけです。 更新:エントロピーは私にとって「トリックをやっている」と思っていましたが、それは主に使用しているテストケースの特性であり、あまりにもうまく設計されていないアルゴリズムでした。一般的な場合、エントロピーは私にとってほとんど役に立たない。 その後、1秒間に約8回サンプリングされた(メインFFTサイクルから統計情報を取得して)信号全体の振幅(パワー、スペクトルフラックス、その他のいくつかの測定を試しました)のFFT(いくつかの異なるウィンドウ関数を使用)を計算する手法を試しましたこれは1024/8000秒ごとです)。1024サンプルでは、​​これは約2分の時間範囲をカバーします。いびき/呼吸対音声/音楽のリズムが遅いためにこのパターンを見ることができることを望んでいました(また、「変動性」問題に対処するより良い方法かもしれません)あちこちにあるパターンの、私が本当にラッチできるものは何もありません。 (詳細:場合によっては、信号振幅のFFTは、約0.2Hzに強いピークと階段高調波を持つ非常に明確なパターンを生成します。しかし、ほとんどの場合、パターンはそれほど明確ではなく、音声と音楽はあまり明確に生成できません性能指数の相関値を計算する方法はあるかもしれませんが、約4次の多項式にカーブフィッティングする必要があり、電話で1秒に1回実行することは実用的ではないようです) また、スペクトルを分割した5つの個別の「バンド」に対して、同じ平均振幅のFFTを実行しようとしました。バンドは4000-2000、2000-1000、1000-500、および500-0です。最初の4つのバンドのパターンは全体的なパターンとほぼ同じでした(ただし、実際の「目立つ」バンドはなく、より高い周波数帯域ではほとんど無視できるほど小さい信号でしたが)。 バウンティ: 彼がこれまでで最も生産的な提案であったことを考えると、彼は新しいものを何も提供していませんが、ネイサンにバウンティを与えるつもりです。しかし、他の誰かが良いアイデアを思いついたら、他の誰かに喜んで表彰したいと思ういくつかのポイントがあります。

1
PSDと周波数スペクトルの2乗振幅の違いは何ですか?
信号のパワースペクトルは、フーリエ変換の振幅の2乗を取ることで計算できます。オーディオの人間であるため、私にとって興味のある信号は時系列になります。 この表現はPSD(パワースペクトル密度)とどのように異なりますか。そして、重要なことに、上記のパワースペクトルの代わりにPSDを使用する実用的な状況はどれですか。

3
高次フィルターのカスケードバイカッドセクションはどのように機能しますか?
私は8次のIIRフィルターを実装しようとしていますが、これまで読んだすべてのアプリケーションノートと教科書には、2次のセクションとして2を超える次数のフィルターを実装するのが最善であると書かれています。tf2sosMATLABで2次セクションの係数を取得するために使用しましたが、予想どおり、4 2次セクションの6x4係数が得られました。SOSとして実装する前は、8次フィルターには7つの以前のサンプル値を保存する必要がありました(および出力値も)。ここで、2次セクションとして実装するとき、フローが入力から出力までどのように機能するか、2つの前のサンプル値のみを保存する必要がありますか?または、最初のフィルターの出力はx_in2番目のフィルターのように送られますか?
20 filters  filter-design  infinite-impulse-response  biquad  audio  image-processing  distance-metrics  algorithms  interpolation  audio  hardware  performance  sampling  computer-vision  dsp-core  music  frequency-spectrum  matlab  power-spectral-density  filter-design  ica  source-separation  fourier-transform  fourier-transform  sampling  bandpass  audio  algorithms  edge-detection  filters  computer-vision  stereo-vision  filters  finite-impulse-response  infinite-impulse-response  image-processing  blur  impulse-response  state-space  linear-systems  dft  floating-point  software-implementation  oscillator  matched-filter  digital-communications  digital-communications  deconvolution  continuous-signals  discrete-signals  transfer-function  image-processing  computer-vision  3d 

2
Goertzelアルゴリズムを使用すると、実際により良い周波数分解能が得られますか?
私はこの記事を読んでいますが、著者がGoertzelアルゴリズムに関して「周波数分解能」を自由に使用していることに少し混乱しています。 基本的な質問:Goertzelアルゴリズムを使用すると、実際に特定の対象帯域でより多くの周波数分解能が得られますか、それとも特定の対象帯域のみでFFTを効率的に計算しますか?サンプルの? たとえば、が100 KHz(固定)であり、データサンプル数が10000であるとしう(また固定)。FFTの長さもである通常のFFTを計算する場合、周波数分解能は予想どおりであり、10 Hzに等しくなります。これは、私のビンが-50,000 Hz〜50,000 Hzの10 Hzで区切られていることを意味します。FsFsF_sNNNNNNFsNFsN\frac{F_s}{N} 次に、Geortzelアルゴリズムを使用して、たとえば20,000〜21,000 Hzの範囲の周波数のみを表示したいとします。サンプル数に同じを使用し、FFTサイズに同じを使用する場合、周波数分解能はどうなりますか?まだ10 Hzですか?それとも Hzですか?NNNNNN21,000−20,00010000=0.121,000−20,00010000=0.1\frac{21,000-20,000}{10000} = 0.1 0〜50,000の場合と同じ inを使用して21,000〜20,000の周波数を評価することにより、メインローブ上のポイントを単純に補間するだけでは、周波数分解能を実際に向上させていないように感じます。NNN これは正しい理解ですか?

2
FFTでスペクトルリークが発生するのはなぜですか?
グーグルやウィキペディアで試してみましたが、「入力信号の周波数が2つのビンの間にあるため」という以外の答えは得ていません。 これが理由であると理解していますが、理解できないのは、漏れが隣接する1つのビンだけではなく、いくつかの隣接するビンにまで及ぶように見える理由です。 私が話していることを説明するために、シミュレートされたデータをいくつか示します(投稿の最後のコード): 上記は、周波数10の正弦波のFFTスペクトル(対数スケールでプロット)です。サンプリングレートは1、サンプル数は100です。グラフはFFTシフトされています。ビン10には明らかにピークのみがあり、残りは数値誤差のオーダー、またはその付近にあります。 これは、10.1の生成された周波数での周波数スペクトルです。明らかに、すぐ隣のビンよりも多くのビンへの「漏れ」があります。 これは、周波数10.5のプロットです。 質問:この漏れがあるのはなぜですか。また、すぐ隣のビンではなく、他のすべてのビンに広がっているのはなぜですか? 興味のある人のためのコード(Pythonコード) import numpy as np import matplotlib.pyplot as plt xFreq = 10.5 xSize = 100.0 xPeriod = xSize/xFreq x = np.linspace(1,xSize,xSize) data = np.sin(2*np.pi*x/xPeriod) fft = np.fft.fft(data) fft = np.fft.fftshift(fft) fig = plt.figure() ax = fig.add_subplot(111) ax.plot(abs(fft), "o") ax.set_yscale('log') plt.show() 私は変更xFreqの価値を10.0する10.5など、

2
この特定のシフト/スケール不変テンプレートマッチングに最適な画像処理技術は何ですか?
ここで最初に説明した問題は進化しており、さらに詳しく調べて新しい情報を得たため、少し簡単になったかもしれません。 結論として、コンピュータービジョン/画像処理技術を使用して、ここに示されているこのパターンを検出できるようにしたいと思います。ご覧のとおり、理想的なパターンは4つの「ping」で構成されています。オブジェクト認識は次のようになります。 不変シフト 水平方向では、画像は周期的になります。(つまり、右に押す、左に出る、およびその逆)。 (幸いなことに)垂直的には、周期的ではありません。(つまり、上または下に押すと停止します)。 スケール不変(表示されるように、pingの「厚さ」は異なる場合があります。) 私はそれについて続けることができますが、私が意味することをカバーする画像を添付しています、以下をご覧ください: もちろん、このファミリーからわかるように、それらは異なる「スケール」でもあります。 そして最後に、実際に受信する可能性のある「現実的な」シナリオをいくつか示します。ノイズがあり、行が下に行くにつれて「フェード」する可能性があり、もちろん、画像にはたくさんの偽の線、アーチファクトがありますなど そしてもちろん、グランドフィナーレとして、この「極端な」シナリオの明確な可能性があります。 そこで、もう一度、最高の検出のためにここでどのコンピューターマシンビジョンテクニックを利用すべきかについてのガイダンスをお願いしたいと思います。パターンの発生ます。また、現実的なシナリオで適切な結果を得ることができます。(良いニュースは、回転不変である必要はないということです)。これまでに思いついたのは、2次元相関だけです。 現実には、色付きの画像がないことを付け加えます-数字の大群を取得するだけなので、「グレースケール」について話していると思います。 前もって感謝します! PSその価値のために、おそらくオープンC Vを使用します。 編集#1: コメントに基づいて、あなたがリクエストした詳細をここに追加しました: データを定義する特性については、次のことを想定できます。 各pingの水平方向の長さはさまざまですが、上限と下限はわかっています。この範囲内のすべての場合はYES、外部の場合はNO。(たとえば、pingの長さは1〜3秒の範囲であることがわかっています)。 すべてのpingは、YESの場合は「可視」である必要がありますが、最後の行が欠落している可能性があり、それでも「YES」と言いたい場合があります。そうでなければNO。 各pingの垂直方向の長さ(「厚さ」)は異なる場合がありますが、ここでも上限と下限を知っています。(これらの画像に表示されるものと同様)。その範囲内のすべてに対してはい。外のものは一切ありません。 YESの場合、各ping間の高さは常に同じである必要があります。そうでない場合、NO。(例、すべてのpingが互いに相対的に同じ高さであることがわかります(垂直軸で〜110))。したがって、110 +/- 5はYESになりますが、それ以外はNOでなければなりません。 私はそれについてだと思います-しかし、私が追加できるものを教えてください...(また、ここに示されているものはすべて、YESとして登録する必要があります)

4
FFTからスペクトル平坦性をどのように計算しますか?
さて、スペクトルの平坦性(ウィーナーエントロピーとも呼ばれます)は、スペクトルの幾何平均と算術平均の比として定義されます。 ウィキペディアおよび他の参考文献は、パワースペクトルを述べています。それはフーリエ変換の二乗ではありませんか?FFTは「振幅スペクトル」を生成し、それを二乗して「パワースペクトル」を取得しますか? 基本的に、私が知りたいのは、spectrum = abs(fft(signal))これらのどれが正しいですか? spectral_flatness = gmean(spectrum)/mean(spectrum) spectral_flatness = gmean(spectrum^2)/mean(spectrum^2) ウィキペディアの定義は大きさを直接使用しているようです: Flatness=∏N−1n=0x(n)−−−−−−−−−√N∑N−1n=0x(n)N=exp(1N∑N−1n=0lnx(n))1N∑N−1n=0x(n)Flatness=∏n=0N−1x(n)N∑n=0N−1x(n)N=exp⁡(1N∑n=0N−1ln⁡x(n))1N∑n=0N−1x(n) \mathrm{Flatness} = \frac{\sqrt[N]{\prod_{n=0}^{N-1}x(n)}}{\frac{\sum_{n=0}^{N-1}x(n)}{N}} = \frac{\exp\left(\frac{1}{N}\sum_{n=0}^{N-1} \ln x(n)\right)}{\frac{1}{N} \sum_{n=0}^{N-1}x(n)} ここで、x(n)x(n)x(n)はビン番号nnn大きさを表します。 SciPyのドキュメントでは、パワースペクトルを次のように定義しています。 入力aが時間領域信号であるA = fft(a)場合、np.abs(A)は振幅スペクトルでnp.abs(A)**2あり、パワースペクトルです。 このソースは、「パワースペクトル」の定義について同意し、それをと呼びます。Sf(ω)Sf(ω)S_{f}(\omega) FT(ω)FT(ω)F_{T}(\omega) Sf(ω)=limT→∞1T∣FT(ω)∣2.Sf(ω)=limT→∞1T∣FT(ω)∣2.\displaystyle S_{f}(\omega) = \lim_{T \rightarrow \infty} \frac{1}{T}{\mid F_{T}(\omega)\mid}^2. このソースは、に関してWienerエントロピーを定義します。S(f)S(f)S(f) しかし、このような方程式では二乗は見られません。これは振幅スペクトルに基づいているようです: Sflatness=exp(1N∑klog(ak))1N∑kakSflatness=exp⁡(1N∑klog⁡(ak))1N∑kak S_{flatness} = \frac{\exp\left(\frac{1}{N} \sum_k \log (a_k)\right)}{\frac{1}{N} \sum_k a_k} 同様に、別のソースはパワースペクトルに関してスペクトルの平坦性を定義しますが、FFTビンの大きさを直接使用します。これは、上記の「パワースペクトル」の定義と矛盾するようです。 「パワースペクトル」は、人によって異なることを意味しますか?

9
FFTがスペクトルを変更するのではなく、逆FFTよりも時間領域でウィンドウを使用する理由
DSPは、信号の一部のFFTを使用して行われ、FFTから生じるサンプルを修正し(信号とノイズのスペクトルを表すため)、不要な信号を削除し、逆FFTを実行して時間を取得すると考えましたフィルターされた信号のドメイン表現(ノイズは除去されました)。ただし、これは行われず、代わりにウィンドウ関数を使用して時間領域ですべての作業を行います。どうして? 窓関数の周波数応答を周波数領域の信号のスペクトルと畳み込むよりも、時間領域で窓関数を掛ける場合、どうなりますか?つまり、信号にフィルターの周波数応答を乗算することによって、周波数領域ですべての作業を行った場合、それは正しいフィルター処理のようになりますか?しかし、ここでは、ウィンドウを使用する代わりに、時間領域ですべての処理を行います。 ->私の混乱がどこから来たのかを見てみましょう。ローパスフィルターなどのアナログフィルターの場合、周波数応答のようなこのパルスがあります。信号をフィルター処理するとき、フィルターの周波数応答のようなパルスで信号のスペクトルを効果的に乗算します。これにより、カットオフより上の信号のすべての周波数が0に減少します。これが、ローパスフィルターの本質的な動作です。デジタルフィルターでも同じことをしてみませんか?

1
用語:スペクトル、スペクトログラム、スペクトログラフ、ソノグラムなど
DSPグラフィックスまたはインストルメンテーション出力の適切な命名規則または受け入れられている命名規則に関して、スペクトル、スペクトログラム、スペクトログラフ、および同様の用語の違いは何ですか?また、チャート、グラフ、CRTディスプレイなどの種類はそれぞれ最もよく説明しています。 追加:また、スペクトル対時間グラフィックスの数冊の本で使用されるソノグラムという用語を見つけました。したがって、上記の用語のいずれかを優先して適切な場合、またはその逆の場合はいつですか?

3
周波数対ウェーブレット変換の大きさをプロットするにはどうすればよいですか?
Morlet連続ウェーブレット変換を実行しています。私はwscalogram信号を受け取ったので、次の図のように周波数の大きさをプロットしたいのですが、どうすればいいのかわかりません。 scal2freqMATLAB関数を使用して、スケールを擬似周波数に変換しました。また、信号にいくつかの周波数があり、それらは大きな減衰比(4%)を持っているため、プロットではよく見えません。これらの非常に減衰したモードを誇張するにはどうすればよいですか? 私はMATLABを使用しています、ここに私のコードがあります: % Import the text4.txt to matlab workspace. and save it under name "data" t=linspace(0,30,301); Fs=ceil(inv(t(2)-t(1))); x=data(:,4); % use x=data(:,3),x=data(:,5) too. first column is time,second is refrence wname = 'morl'; scales = 1:1:256; coefs = cwt(x,scales,wname,'lvlabs'); freq = scal2frq(scales,wname,1/Fs); surf(t,freq,abs(coefs));shading('interp'); axis tight; xlabel('Seconds'); ylabel('Pseudo-Frequency (Hz)'); axis([0 30 0 …

1
MUSICを介して固有ベクトルを使用して信号の基本周波数を推定する方法について
環境: (免責事項:これは通信の問題ではありません)。 実際の周期信号の基本周波数を推定しようとしています。この信号は、生信号とパルスの信号を一致フィルタリングすることにより作成されました。(マッチドフィルター)。結果の信号には、次の特性があります。 定期的です。(基本は1 /期間)、これは私が推定しようとしているものです。 時間的には非定常です。具体的には、周期的パルスの振幅は振幅が異なります。(例えば、あるパルスが低く、別のパルスが高く、次のパルスが再び低く、その媒体の後に続くなど)。 私は、周波数が変化しないことを信じています(変化する振幅を受け入れますが、変化する帯域は受け入れません)。 高調波歪みがあります。ここで私が意味しているのは、(間違っている場合は修正してください)、しかし、信号内の個々のパルスは正弦波ではなく、ガウス、三角形のような、半放物線などの「ファンキーな」形状です。 この信号の基本周波数を推定しようとしています。 もちろん、生の信号はノイズに過ぎない場合もありますが、それでもパスを通過し、とにかく一致フィルター処理されます。(これについては後で説明します)。 私が試したもの: 今、私は次のような多数の基本周波数推定量を知っています。 自己相関法 YIN、およびそのすべての依存関係 FFTメソッド。 等、 YIN:YINはまだ試していません。 FFT方式:FFT方式は、すべての高調波と基本波を提供しますが、基本波は常に最高のピークではないため、特にこの非定常的なビジネスでは細心の注意を払う必要があることに気付きました。非常に迅速に、多くのピークのどれが基本であるかを確認しようとしていることに気づき、それは難しい問題になります。 自己相関:自己相関法はFFT法よりも優れているようですが、それでも時間領域信号の振幅の不規則性に敏感です。自己相関法は、中心ローブから次に高いローブまでの距離を測定します。その距離は基本に対応します。ただし、非定常の場合、このセカンダリローブは非常に低くなる可能性があり、しきい値設定スキームで見落とす可能性があります。 その後、MUSICのような部分空間法を使用して基本波を推定できる可能性があることに気付きました。これをテストすると、信号の基本波に対応する周波数で、非常に優れた結果が得られることがわかりました。(探している信号の数を2に設定すると、基本波が取得されます。つまり、信号の共分散行列の(固有値の最大値に対応する)最も高い2つの固有ベクトルが選択され、破棄され、残りの部分空間からノイズ部分空間を作成し、それらに対して複合複素正弦波を投影し、逆数を取得し、素敵な擬似スペクトルを作成します)。 質問と問題: そうは言っても、なぜこれがうまくいくのかを理解したいと思います。 MUSICでは、信号部分空間を破棄し、雑音部分空間を使用します。信号部分空間の固有ベクトルは、実際にはある種の「最適な」ものであるように思えます-実際、それらは最適な整合フィルターです。だから、なぜ信号部分空間固有ベクトルを直接使用しないのですか?(私はもう音楽ではないことを知っていますが、なぜノイズ部分空間を使用するのが良いですか?) 最後に、最後の問題は、この方法が非定常信号(上記で定義)に対してはるかに堅牢に動作するように見えますが、問題は、システムにノイズしか存在しない場合でも、常に答えが得られることです!(前に述べたように、事前にフィルター処理された生のフィルター処理された信号は、周期的な信号が存在しない場合にホワイトノイズになることがあります)。 これに対抗するにはどのような方法がありますか?固有値を調べてみましたが、信号が存在する場合とノイズが存在する場合の減衰には、より多くの「曲率」がありますが、十分に堅牢でない可能性があります。 ボーナス: 共分散行列の固有ベクトル対他の何かはいつですか?それらが正弦波であるかどうかを決定するものは何ですか?なぜ方形波ではないのですか?または、ここに他の形状の信号を挿入しますか?

2
逆ポリフォニックコード認識
ポリフォニック音楽の転写は現在、解決された問題ではないようです。 問題の小さな部分の逆はどうですか。確率空間から一部の音楽コードを除去するために使用できるスペクトル特性(STFTから)がありますか?(たとえば、この音のスニペットには、C#の和音やマイナーな和音が含まれていないか、和音ではなく単一の音ですなど) オーディオスニペットがほぼ定常的である(一時的な攻撃が除去されるなど)と仮定し、個々のノートのほとんどまたはすべての倍音が存在する可能性が非常に高いと仮定します。(そして、この質問は逆さの和音に関するものではありません。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.