DFTではなくDCTを音声振幅スペクトルに使用できますか?


13

私の理解では、DCTのビンサイズは同じサイズNのDFTの半分です。DFTには位相情報も含まれますが、振幅スペクトルのみが必要な場合、これはしばしば不要です。

  • DCTを使用して、DFTの2倍の密度(ビン間隔の半分)の振幅スペクトルを提供できますか、または位相がずれた情報が失われますか?
  • 50%のオーバーラップでどうですか?

4
DCTには位相情報も含まれていると思いますが、複素数は使用しません。「実際のFFT」は、同じ負の周波数を捨てることにより、同じ情報に対してメモリの半分と計算時間の半分を使用します。「2倍長FFTの実数部は、正弦波基底関数の半サンプル位相シフトを除いてDCTと同じです」
エンドリス

実際、少なくとも係数の符号は貧しい人のフェーズと見なすことができます
ローランデュバル

回答:


3

はい、DCTを使用して、密度が2倍の振幅スペクトルを提供できます。私はオーバーラップをよく理解していませんが、DCTがカバーする範囲が少ないので、オーバーラップがあると思いました。質問に適切な回答を提供するために、主に画像処理でのDCTの使用法について簡単に説明します。

まず、いくつかの仮定をする必要があります。DCTを使用するには、実際の信号が必要です。これは定義によるものです。あなたが言っている間、DCTはサイズNのDFTと比較して半分のビンサイズを持っています、あなたは信号が低周波信号であると仮定しています。そうでなければ、それほどではありません。

DCTを圧縮で使用する場合、画像のDFTは対称であるため、冗長な情報が生成されます(信号を再現するには1つのサイドミラーで十分です)。したがって、DFTと比較してより高密度の情報を生成するために、DCTのカーネルが使用されます。これは、低周波オーディオ信号にも当てはまり、同じ方法で使用できます。DCTのカーネルは信号の両側(実数部と虚数部)をカバーするため、密度は高くなりますが、係数は大きくなります。

私の専攻は画像処理であるため、DCTおよびDFTの概念と説明を画像処理でマップしようとしました。ただし、画像と音声の違いはサイズです。画像処理では、サイズ(FFTの行と列、およびその他の処理目的)を知っています。さらに処理するには、何らかの方法でオーディオデータのベクトルを分割する必要があると思います。データがわからない場合、これは面倒な場合があります(わかりません)。

これはウェブから取られた画像ですが、私がそれを撮った場所には書きませんでした。ウィキペディアかもしれません。

画像処理

ご覧のとおり、変換された画像はDCTで問題なく振幅スペクトルで表されます。よりコンパクトで密度の高い方法で、係数の大きさを見てください。DFTの2倍よりも大きい。DFTは対称的です。2つに分割できます。一部は冗長です。そしてもう1つ、DCTが情報を保存できるのはDFTの半分だけではなく、DFTのほぼ4分の1です。これは一般に、DCTが画像のDFTを克服する場合です。


FFTはX次元とY次元の両方で冗長であるため、4分の1に分割できませんか?
エンドリス

FFTがより多くの情報を含み、DCTがより多くのゼロを含むように見えるのはなぜですか?
エンドリス

最初の質問、私はよく理解していません、XとY次元とはどういう意味ですか?2番目の質問は、カーネルの違いによるものです。DCTにはより多くのゼロが含まれているようには見えませんが、実際には通常のフーリエ変換(DFT)よりも多くのゼロが含まれています。これは、カーネルの違いによるものです。
ヘファイストス

つまり、画像は実際の信号なので、FFTには冗長な情報が含まれています。FFTの負の半分は、両方の次元で正の半分の単なる鏡です。
エンドリス

0
  • 50%のオーバーラップでどうですか?

この質問から、スライディングフーリエまたはスペクトログラムの方法で、ローカライズされたブロック処理を実行することを考えていることを理解しています。

  • DCTを使用して、DFTの2倍の密度(ビン間隔の半分)の振幅スペクトルを提供できますか、または位相がずれた情報が失われますか?

マグニチュードスペクトルについて説明する場合、もちろん位相の一部(複素フーリエ係数の引数またはDCT係数の符号)はとにかく失われます

そのため、もちろん、分析専用の短期フーリエ公式内のウィンドウフーリエ変換の代わりに多くのカーネルをプラグインできます。さまざまな種類のDCT、それらのオーバーラップバージョン(LOT、MDCT)、および優れた直交およびウィンドウプロパティは、反転(合成)することさえできます。

オーディオでは、(非複雑な)DCTまたはオーバーラップバージョンが分析、オンセットおよびピッチ検出(ブラインドソース分離)によく使用されます。たとえば、A。LiutkusによるSTFT、MDCTおよびインバースMatlabツールボックスがあります。大時間周波数解析ツールボックス(LTFAT)をも有しています。

  • 線形時間-周波数スケールでの高速TF変換:ガボール(STFT)、ウィルソン、ウィンドウ化MDCT
  • GaborおよびWMDCTドメインのスパース回帰

私はオーディオをよく知りません。ただし、50%または75%のオーバーラップは非常に一般的であり、他の設定を使用する人はほとんどいません。ただし、「1ウィンドウ」の時間周波数制限を克服するために、少なくとも2つのウィンドウサイズ、静止部分の長いもの、過渡状態の短いもの使用することは非常に一般的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.