回答:
物事を明確にするために-このプロパティは基本的ではありませんなく重要です。これは、スペクトル計算にDFTではなくDCTを使用する場合の基本的な違いです。
話者認識では、チャネル効果(声道、オーディオパス、部屋などのインパルス応答)を削除します。入力信号があり、チャネルインパルス応答がh [ n ]で与えられる場合、記録された信号は両方の線形畳み込みです。
フーリエ変換を使用すると、次のようになります。
FTの畳み込み乗算の等価性により- のためこのステップでFFTの非常に重要な特性である理由です。
ケプストラムの計算の次のステップは、スペクトルの対数を取ることです。
理由:。明らかに、qはquefrencyです。お気づきかもしれませんが、時間領域で畳み込みのケプストラムをとることにより、ケプストラム(ケフレンシー)領域での追加になります。
これで、ケプストラム領域では、畳み込み歪みは加算によって表されることがわかりました。それらすべてが静止していると仮定しましょう(声道とチャネル応答が変化しないため、これは強い仮定です)。すべてのi番目のフレームについて、以下が真であることがわかります。
すべてのフレームの平均を取ることにより、
違いを定義する:
最終的に、チャネルの歪みが除去された信号になります。上記のすべての方程式を単純な英語にまとめる:
特に、単一の環境で1人のスピーカーを認識しようとしている場合は、必須ではありません。実際、加法性ノイズによるエラーが発生しやすいため、結果が悪化することさえあります。
悪いSNR状態では、マークされた用語が推定を追い越す可能性があります。
CMSを実行すると、通常は数パーセントの余分な利益を得ることができます。係数の導関数からそのパフォーマンスゲインを追加すると、認識率が大幅に向上します。最終決定はあなた次第です。特に音声認識システムの改善に使用される他の多くの方法があるということです。