類似性の評価のための音声比較アルゴリズム


8

私は2つの音声サンプルを比較し、類似点でそれらを評価しようとしています。誰かがフレーズを繰り返して、それらの2つのオーディオファイルを比較しようとしていると考えてください。

私はMFCC(http://en.wikipedia.org/wiki/Mel-frequency_cepstrum)アルゴリズムを実装することから始めました。両方のオーディオサンプルのMFCCを計算します。これにより、14程度のMFCC係数を持つ約500フレームのオーディオ(各10ミリ秒、前のものと30%オーバーラップ)が得られます。つまり、各オーディオ信号に対して500x14のマトリックスです。

次に、単純に行列を差分する単純なアプローチを実行します。これは非常に有望な結果を与えません。完全に異なるオーディオサンプル(異なるフレーズが話されている)を比較する時間の半分は、同じフレーズを繰り返そうとするオーディオを比較するよりも差が少なくなります。これは明らかに逆であり、良いスコアリングアルゴリズムを私に与えることはできません。

これをどのように改善できますか?MFCCは音声処理の本当に重要な部分だと思いましたが、明らかにそれをさらに活用する必要があります。


類似の問題を扱っているのですが、類似性スコアを取得するために2人の異なる話者の声を比較する必要がある場合、どのようなアプローチをとりますか?また、オーディオクリップが同じ人物からのものかどうかを直接計算する方法はありますか?
アマンダ

回答:


13

まず、タイミングの違いを修正する必要があります。たとえば、一方の発話が「--heeelloooo ---」ともう一方の「hellooooooo ----」(-は無音を表す)の場合、MFCCフレームを直接ペアで比較すると、2つのサンプルが揃っていないという理由だけで違いが示されます。ダイナミックタイムワーピングを使用して、特徴ベクトルの2つのシーケンス間の最適な配置を見つけ、対応する距離を計算できます。

2番目の問題は、2つの録音が同じスピーカーからのものでない場合、音色の違いを補正する必要があることです。「aaa」と言っている女性のMFCCは、同じ音素を言っている男性の話者のMFCCと同じではありません。音声の音色の変化を説明する比較的単純なモデルは、あるスピーカーのMFCCを別のスピーカーのMFCCに「マッピング」する線形変換 が存在すると仮定することです(公平を期すために、これらの変換の1つの小さなサブセットのみが正確に変換されます)年齢、性別などのパラメーターの変化がどのようにMFCCを「シフト」するかをモデル化します。2つの記録が大まかに揃っていれば、最小二乗法を使用してを推定できます。この手順は、スピーカーの正規化またはスピーカーの適応と呼ばれます。ΓΓΓ

したがって、比較手順は次のステップで構成されます。とは元のMFCCシーケンスです。BAB

  • DTWを使用して2つの発話を整列させます。この収率はから観察と行列反りが/で観察と一致するようにシフト。とが同じスピーカーからのものであることがわかっている場合は、ここで停止できます。 A B A ' BAABAB
  • と差を最小にする変換を推定します。Γ A " BΓΓAB
  • メトリックとしてと間の距離を使用します。 BΓAB

最後に頭に浮かぶのは、最初のMFCC係数(信号のラウドネスを大まかに表す)を破棄して、別のボリューム/録音レベルで発音された発話と一致するようにシステムの容量を改善する必要があるということです。


もっと多くの道順を教えてくれてありがとう。前の質問に対するあなたの回答に従って、最初のMFCC値を削除しました。DTWを使用して発話を調整することについて:これはフレームごとに行われるべきですか?つまり、500x14マトリックスには、AとBの両方に500フレームの10msオーディオがあります。DTWを行ごとに使用してAとBを一致させますか?
YoungMoney 2013年

私はあなたがBから500個のベクトルにAから500個のベクトルを合わせるためにDTWを使用して...必ず私はあなたの質問を理解していないです
pichenettes

つまり、AとBごとに500のベクターを1つの「長い」ベクター(500x14要素)に連結してから、DTWを適用する必要がありますか?14要素のベクトルにDTWを500回適用する場合と比較して。前者は、これまでに読んだ内容に基づいて、より理にかなっています。
YoungMoney 2013年

2
前者は確かに。
500x500

ああ。さて、私は再びレースに
出かけ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.