ケプストラム平均の正規化

誰でもケプストラム平均正規化、畳み込みの等価性がこれにどのように影響するかについて説明できますか？MFCCベースの話者認識でCMNを実行する必要がありますか？畳み込みの性質がMFCCの基本的な必要性である理由

私はこの信号処理に非常に新しいです。助けてください

mfcc

— ムン
ソース

MFCCプロセスでは、フィルターバンクを使用せずに、周波数をメルスケールに直接変換できますか？

— 紫

物事を明確にするために-このプロパティは基本的ではありませんなく重要です。これは、スペクトル計算にDFTではなくDCTを使用する場合の基本的な違いです。

ケプストラム平均正規化を行う理由

話者認識では、チャネル効果（声道、オーディオパス、部屋などのインパルス応答）を削除します。入力信号があり、チャネルインパルス応答がで与えられる場合、記録された信号は両方の線形畳み込みです。 $x[n]$ $h[n]$

y [n] = x [n] ⋆ h [n]

$y[n] = x[n] \star h[n]$

フーリエ変換を使用すると、次のようになります。

Y [f] = X [f] \cdot H [f]

$Y[f] = X[f]\cdot H[f]$

FTの畳み込み乗算の等価性により- のためこのステップでFFTの非常に重要な特性である理由です。

ケプストラムの計算の次のステップは、スペクトルの対数を取ることです。

Y [q] = \log Y [f] = \log (X [f] \cdot H [f]) = X [q] + H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

理由：。明らかに、はquefrencyです。お気づきかもしれませんが、時間領域で畳み込みのケプストラムをとることにより、ケプストラム（ケフレンシー）領域での追加になります。 $\log(ab) = \log a +\log b$ $q$

ケプストラム平均正規化とは何ですか？

これで、ケプストラム領域では、畳み込み歪みは加算によって表されることがわかりました。それらすべてが静止していると仮定しましょう（声道とチャネル応答が変化しないため、これは強い仮定です）。すべてのi番目のフレームについて、以下が真であることがわかります。

Y_{i} [q] = H [q] + X_{i} [q]

$Y_i[q] = H[q] + X_i[q]$

すべてのフレームの平均を取ることにより、

\frac{1}{N} \sum_{i} Y_{i} [q] = H [q] + \frac{1}{N} \sum_{i} X_{i} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

違いを定義する：

\begin{matrix} R_{i} [q] & = Y_{i} [q] - \frac{1}{N} \sum_{j} Y_{j} [q] \\ = H [q] + X_{i} [q] - (H [q] + \frac{1}{N} \sum_{j} X_{j} [q]) \\ = X_{i} [q] - \frac{1}{N} \sum_{j} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

最終的に、チャネルの歪みが除去された信号になります。上記のすべての方程式を単純な英語にまとめる：

ケプストラムを計算する
各係数から平均を引きます
オプションで、減算ではなくケプストラム平均正規化を実行するために分散で除算します。

ケプストラム平均の正規化は必要ですか？

特に、単一の環境で1人のスピーカーを認識しようとしている場合は、必須ではありません。実際、加法性ノイズによるエラーが発生しやすいため、結果が悪化することさえあります。

y [n] = バツ [n] ⋆ h [n] + w [n]

$y[n] = x[n] \star h[n] + w[n]$

Y [f] = バツ [f] \cdot H [f] + W [f]

$Y[f] = X[f]\cdot H[f] + W[f]$

ログ Y [f] = ログ [バツ [f] （ H [f] + \frac{W [f]}{バツ [f]} ）] = ログ バツ [f] + ログ （ H [f] + \frac{W [f]}{バツ [f]} ）

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

悪いSNR状態では、マークされた用語が推定を追い越す可能性があります。

CMSを実行すると、通常は数パーセントの余分な利益を得ることができます。係数の導関数からそのパフォーマンスゲインを追加すると、認識率が大幅に向上します。最終決定はあなた次第です。特に音声認識システムの改善に使用される他の多くの方法があるということです。

— ジョジェック
ソース

@mun：助かりました。新規ユーザーの制限を削除できるように、質問への回答を承認済みとしてマークしないのはなぜですか？

— jojek

@mun：おめでとうございます！さらに多くのリンクを投稿し、質問と回答に投票し、投稿にフラグを立てます。

— jojek

ありがとう@jojek ..私はこれらすべてに非常に新しいですが、問題を解決してくれてうれしいです。

— mun 14

@mun：それから私は間違いなくあなたが迅速に取るように勧めツアーを

— jojek

最後の答えでは、「係数の導関数からそのパフォーマンスゲインに追加する」が実際に意味するものを得ることができません。簡単な説明をお願いできますか？どうもありがとう

— 元帥王