私は2つの音声サンプルを比較し、類似点でそれらを評価しようとしています。誰かがフレーズを繰り返して、それらの2つのオーディオファイルを比較しようとしていると考えてください。
私はMFCC(http://en.wikipedia.org/wiki/Mel-frequency_cepstrum)アルゴリズムを実装することから始めました。両方のオーディオサンプルのMFCCを計算します。これにより、14程度のMFCC係数を持つ約500フレームのオーディオ(各10ミリ秒、前のものと30%オーバーラップ)が得られます。つまり、各オーディオ信号に対して500x14のマトリックスです。
次に、単純に行列を差分する単純なアプローチを実行します。これは非常に有望な結果を与えません。完全に異なるオーディオサンプル(異なるフレーズが話されている)を比較する時間の半分は、同じフレーズを繰り返そうとするオーディオを比較するよりも差が少なくなります。これは明らかに逆であり、良いスコアリングアルゴリズムを私に与えることはできません。
これをどのように改善できますか?MFCCは音声処理の本当に重要な部分だと思いましたが、明らかにそれをさらに活用する必要があります。