私の理解では、DCTのビンサイズは同じサイズNのDFTの半分です。DFTには位相情報も含まれますが、振幅スペクトルのみが必要な場合、これはしばしば不要です。
- DCTを使用して、DFTの2倍の密度(ビン間隔の半分)の振幅スペクトルを提供できますか、または位相がずれた情報が失われますか?
- 50%のオーバーラップでどうですか?
私の理解では、DCTのビンサイズは同じサイズNのDFTの半分です。DFTには位相情報も含まれますが、振幅スペクトルのみが必要な場合、これはしばしば不要です。
回答:
はい、DCTを使用して、密度が2倍の振幅スペクトルを提供できます。私はオーバーラップをよく理解していませんが、DCTがカバーする範囲が少ないので、オーバーラップがあると思いました。質問に適切な回答を提供するために、主に画像処理でのDCTの使用法について簡単に説明します。
まず、いくつかの仮定をする必要があります。DCTを使用するには、実際の信号が必要です。これは定義によるものです。あなたが言っている間、DCTはサイズNのDFTと比較して半分のビンサイズを持っています、あなたは信号が低周波信号であると仮定しています。そうでなければ、それほどではありません。
DCTを圧縮で使用する場合、画像のDFTは対称であるため、冗長な情報が生成されます(信号を再現するには1つのサイドミラーで十分です)。したがって、DFTと比較してより高密度の情報を生成するために、DCTのカーネルが使用されます。これは、低周波オーディオ信号にも当てはまり、同じ方法で使用できます。DCTのカーネルは信号の両側(実数部と虚数部)をカバーするため、密度は高くなりますが、係数は大きくなります。
私の専攻は画像処理であるため、DCTおよびDFTの概念と説明を画像処理でマップしようとしました。ただし、画像と音声の違いはサイズです。画像処理では、サイズ(FFTの行と列、およびその他の処理目的)を知っています。さらに処理するには、何らかの方法でオーディオデータのベクトルを分割する必要があると思います。データがわからない場合、これは面倒な場合があります(わかりません)。
これはウェブから取られた画像ですが、私がそれを撮った場所には書きませんでした。ウィキペディアかもしれません。
ご覧のとおり、変換された画像はDCTで問題なく振幅スペクトルで表されます。よりコンパクトで密度の高い方法で、係数の大きさを見てください。DFTの2倍よりも大きい。DFTは対称的です。2つに分割できます。一部は冗長です。そしてもう1つ、DCTが情報を保存できるのはDFTの半分だけではなく、DFTのほぼ4分の1です。これは一般に、DCTが画像のDFTを克服する場合です。
この質問から、スライディングフーリエまたはスペクトログラムの方法で、ローカライズされたブロック処理を実行することを考えていることを理解しています。
マグニチュードスペクトルについて説明する場合、もちろん位相の一部(複素フーリエ係数の引数またはDCT係数の符号)はとにかく失われます。
そのため、もちろん、分析専用の短期フーリエ公式内のウィンドウフーリエ変換の代わりに多くのカーネルをプラグインできます。さまざまな種類のDCT、それらのオーバーラップバージョン(LOT、MDCT)、および優れた直交およびウィンドウプロパティは、反転(合成)することさえできます。
オーディオでは、(非複雑な)DCTまたはオーバーラップバージョンが分析、オンセットおよびピッチ検出(ブラインドソース分離)によく使用されます。たとえば、A。LiutkusによるSTFT、MDCTおよびインバースMatlabツールボックスがあります。大時間周波数解析ツールボックス(LTFAT)をも有しています。
- 線形時間-周波数スケールでの高速TF変換:ガボール(STFT)、ウィルソン、ウィンドウ化MDCT
- GaborおよびWMDCTドメインのスパース回帰
私はオーディオをよく知りません。ただし、50%または75%のオーバーラップは非常に一般的であり、他の設定を使用する人はほとんどいません。ただし、「1ウィンドウ」の時間周波数制限を克服するために、少なくとも2つのウィンドウサイズ、静止部分の長いもの、過渡状態の短いものを使用することは非常に一般的です。