特徴抽出プロセスでフーリエ変換が2回適用されるのは、特徴がケプストラムと呼ばれる概念に基づいているためです。ケプストラムは単語のスペクトルの遊びです-基本的には、フーリエ変換によって信号を周波数領域に変換し、周波数スペクトルが信号であるかのように別の変換を実行するという考え方です。
周波数スペクトルは各周波数帯域の振幅と位相を表しますが、ケプストラムは周波数帯域間の変動を特徴付けます。ケプストラムから導出された特徴は、周波数スペクトルから直接取得された特徴よりも音声をよりよく説明することがわかります。
わずかに異なる定義がいくつかあります。もともとケプストラム変換は、フーリエ変換->複素対数->フーリエ変換として定義されていました[1]。別の定義は、フーリエ変換->複素対数->逆フーリエ変換です[2]。後者の定義の動機は、畳み込み信号を分離する能力にあります(人間の発話は、多くの場合、興奮と声道の畳み込みとしてモデル化されます)。
音声認識システムで適切に機能することがわかっている一般的な選択肢は、周波数領域(参照しているメルビニング)に非線形フィルターバンクを適用することです[3]。特定のアルゴリズムは、フーリエ変換->振幅の二乗->メルフィルターバンク->実対数->離散コサイン変換として定義されます。
ここでは、DCTを2番目の変換として選択できます。これは、実数値入力の場合、DFTの実数部が一種のDCTであるためです。DCTが推奨される理由は、出力がほぼ無相関であるためです。非相関の特徴は、対角共分散行列をもつガウス分布として効率的にモデル化できます。
[1] Bogert、B.、Healy、M。、およびTukey、J。(1963)。エコーの時系列のQuefrency Alanysis:ケプストラム、擬似自己共分散、クロスケプストラムおよびSapheクラッキング。時系列分析に関するシンポジウムの議事録、p。209-243。
[2]オッペンハイム、A。、およびシェーファー、R。(1968)。音声の準同型分析。IEEE Transactions on Audio and Electroacoustics 16、p。221-226。
[3] Davis、S.、およびMermelstein、P.(1980)。連続音声文における単音節単語認識のパラメトリック表現の比較。IEEE Transactions on Acoustics、Speech and Signal Processing 28、p。357-366。