4
フーリエ変換とコサイン変換の違いは何ですか?
音声認識では、フロントエンドは一般に信号処理を行って、オーディオストリームからの特徴抽出を可能にします。このプロセスでは、離散フーリエ変換(DFT)が2回適用されます。最初はウィンドウ処理後です。このメルビニングが適用された後、別のフーリエ変換が行われます。 しかし、2番目の操作にDFTではなく離散コサイン変換(DCT)を使用することは、音声認識プログラム(たとえば、CMU Sphinxの既定のフロントエンド)で一般的であることに気付きました。これら2つの操作の違いは何ですか?なぜ初めてDFTを行い、次にDCTを2回目にするのですか?