フーリエ変換とコサイン変換の違いは何ですか?


75

音声認識では、フロントエンドは一般に信号処理を行って、オーディオストリームからの特徴抽出を可能にします。このプロセスでは、離散フーリエ変換(DFT)が2回適用されます。最初はウィンドウ処理後です。このメルビニングが適用された後、別のフーリエ変換が行われます。

しかし、2番目の操作にDFTではなく離散コサイン変換(DCT)を使用することは、音声認識プログラム(たとえば、CMU Sphinxの既定のフロントエンド)で一般的であることに気付きました。これら2つの操作の違いは何ですか?なぜ初めてDFTを行い、次にDCTを2回目にするのですか?


そのため、2つのプロセスの違いについていくつか説明しています。dftとdctが音声認識で異なる時間に使用される理由を誰もが知っていますか?最初のdftの出力は対称と見なされますか?または、dctの圧縮は、最初の13ポイントでより多くの情報をパックするのに適していますか(音声処理は一般にそれらのみを使用します)?
ネイト・グレン・

あなたの質問は、別の質問で尋ねられたメル周波数ケプストラムに関連していますか?
rwong

私の質問は2つの部分でした。DCTとDFTの違い、および別のDFTではなく、DFTとメルビニングが適用された後のDCTが信号処理によく使用される理由です。
ネイトグレン

なぜ画像処理では、離散コサイン変換の代わりに離散サイン変換を使用しないのですか?

こんにちはリモンド、これは良い質問ですが、回答として投稿しました。新しい質問を作成して質問する必要があります。
ネイトグレン

回答:


48

離散フーリエ変換(DFT)と離散コサイン変換(DCT)は同様の機能を実行します。どちらも有限長の離散時間ベクトルをスケーリングおよびシフトされた基底関数の合計に分解します。2つの違いは、各変換で使用される基底関数のタイプです。DFTは調和的に関連する複素指数関数のセットを使用しますが、DCTは(実数値の)コサイン関数のみを使用します。

DFTは、さまざまな分野に進出する一般的なスペクトル分析アプリケーションに広く使用されています。また、オーバーラップ保存やオーバーラップ追加の高速畳み込みアルゴリズムなど、信号の周波数領域表現の特性を利用する手法の構成要素としても使用されます。

DCTは、JPEG画像形式などの非可逆データ圧縮アプリケーションで頻繁に使用されます。圧縮に非常に適したDCTの特性は、高度な「スペクトル圧縮」です。質的レベルでは、信号のDCT表現は、DFTなどの他の変換と比較した場合、少数の係数に多くのエネルギーが集中する傾向があります。これは、圧縮アルゴリズムに適しています。DCT係数の比較的小さなセットを使用して元の(時間または空間領域)信号を近似的に表現できる場合、大量のエネルギーを含むDCT出力のみを保存することで、データストレージの要件を減らすことができます。


4
@JasonR「質的レベルでは、信号のDCT表現は、DFTのような他の変換と比較すると、より多くのエネルギーが少数の係数に集中する傾向があります。」うーん...これについてあなたに完全に同意するかどうかはわかりません-DFTがすでに信号が投影されるコサインを含んでいる場合だけ-DFT がその投影の強さをどれだけ表示できないかとDCTはできますか?ありがとう。
スペイシー

3
これはDCTの非常によく知られた機能であり、非常に多くの圧縮アルゴリズムでの使用を説明しています。これは、DFTとは異なる、信号のエッジでDCTによって想定される境界条件に関係していると思います。
ジェイソンR

23

DCT wiki(Pearsonartphotoでも共有)の詳細のいくつかは、DCTが圧縮アプリケーションに適していることを指摘していることがわかりました。非公式の概要セクションの終わりが参考になります(太字は私のものです)。

特に、関数の不連続性がフーリエ級数の収束率を低下させることはよく知られています...関数が滑らかであればあるほど、正確に表現するために必要なDFTまたはDCTの項が少なくなり、圧縮できます...ただし、DFTの暗黙の周期性は、通常、境界で不連続が発生することを意味します...対照的に、両方の境界が常に境界であるDCTは境界で連続的な拡張をもたらします。これが、DCTが一般にDFTやDSTよりも信号圧縮のパフォーマンスが優れている理由です。実際には、一部の計算の利便性のために、このようなアプリケーションには通常、タイプII DCTが好まれます。

さらに、この答えも役立つことがあります(math.stackexchange.comから)。状態:

コサイン変換は、特別な対称性を持つシーケンスのフーリエ変換を計算するためのショートカットに過ぎません(シーケンスが偶数関数からのサンプルを表す場合など)。


19

特徴抽出プロセスでフーリエ変換が2回適用されるのは、特徴がケプストラムと呼ばれる概念に基づいているためです。ケプストラムは単語のスペクトルの遊びです-基本的には、フーリエ変換によって信号を周波数領域に変換し、周波数スペクトルが信号であるかのように別の変換を実行するという考え方です。

周波数スペクトルは各周波数帯域の振幅と位相を表しますが、ケプストラムは周波数帯域間の変動を特徴付けます。ケプストラムから導出された特徴は、周波数スペクトルから直接取得された特徴よりも音声をよりよく説明することがわかります。

わずかに異なる定義がいくつかあります。もともとケプストラム変換は、フーリエ変換->複素対数->フーリエ変換として定義されていました[1]。別の定義は、フーリエ変換->複素対数->逆フーリエ変換です[2]。後者の定義の動機は、畳み込み信号を分離する能力にあります(人間の発話は、多くの場合、興奮と声道の畳み込みとしてモデル化されます)。

音声認識システムで適切に機能することがわかっている一般的な選択肢は、周波数領域(参照しているメルビニング)に非線形フィルターバンクを適用することです[3]。特定のアルゴリズムは、フーリエ変換->振幅の二乗->メルフィルターバンク->実対数->離散コサイン変換として定義されます。

ここでは、DCTを2番目の変換として選択できます。これは、実数値入力の場合、DFTの実数部が一種のDCTであるためです。DCTが推奨される理由は、出力がほぼ無相関であるためです。非相関の特徴は、対角共分散行列をもつガウス分布として効率的にモデル化できます。

[1] Bogert、B.、Healy、M。、およびTukey、J。(1963)。エコーの時系列のQuefrency Alanysis:ケプストラム、擬似自己共分散、クロスケプストラムおよびSapheクラッキング。時系列分析に関するシンポジウムの議事録、p。209-243。

[2]オッペンハイム、A。、およびシェーファー、R。(1968)。音声の準同型分析。IEEE Transactions on Audio and Electroacoustics 16、p。221-226。

[3] Davis、S.、およびMermelstein、P.(1980)。連続音声文における単音節単語認識のパラメトリック表現の比較。IEEE Transactions on Acoustics、Speech and Signal Processing 28、p。357-366。


Re。特徴抽出におけるPCA:真のPCAは、データに依存するため、ここでは意味がありません!あるデータセットからメル周波数ログ係数のPCAを計算し、次に別のデータセットから計算すると、異なる基礎が見つかります。つまり、PCAが特徴抽出プロセスで使用された場合、1つの信号で抽出された特徴は'tは、他の信号で抽出された特徴と同じことを意味します。次に、この実験を行います。ログメル係数のセットでPCAを計算します。最も多様な10時間のオーディオから抽出されました。あなたが見つける基礎は、DCTの基礎と驚くほど似ています。
-pichenettes

3
言い換えると、認識アプリケーションで有用であるためには、特徴抽出プロセスの最後にある非相関変換は、データ固有ではなく、一般的な「オーディオ」に適した一種の妥協でなければなりません。DCTの基準は、大量のオーディオでPCAを実行したときに得られるものに非常に近いことがわかります。
-pichenettes

最近、実験的な音声システムの特徴抽出プロセスの最後にPCAが使用されているのを見ました。そのシステムは、トレーニングデータからPCA投影を計算し、その後同じ基準を使用しました。
セッポEnarvi

8

離散フーリエ変換と離散コサイン変換の違いは、DCTは実数のみを使用するのに対して、フーリエ変換は複素数を使用できることです。DCTの最も一般的な使用法は圧縮です。これは、長さの2倍のFFTと同等です。


1
ただし、実数部と虚数部のDCT / DSTを別々に取得する複雑なシーケンスのDCT / DSTを考えることは可能です。

したがって、DFTを計算すると、DCTが無料で得られると言えます。ベクトルの虚数部を削除するだけです。私が間違っている場合は修正してください。
マレック

1
それよりも少し複雑ですが、FFTとDCTの間の変換をかなり簡単に行うことができます。
PearsonArtPhoto
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.