この問題への答えを探している間、このボードが見つけたので、この質問を Stack Overflowからクロスポストすることにしました。
私は、音声セグメントと人間の声の類似性を判定する方法を探しています。これは数値で表現されています。
私はかなり検索しましたが、私がこれまでに見つけたもの(詳細は下記)は、私が必要とするものに実際には合いません。
1つの方法は、音声認識ソフトウェアを使用して音声セグメントから単語を取得することです。ただし、この方法では、人間の発話に対する「類似した」音声を思い付くことができません。多くの場合、音声に単語があるかどうかを判断できますが、明確な単語がない場合、音声がそのような単語を持っていることを近くに伝えることはできません。
例:CMU Sphinx、Dragonfly、SHoUTより有望な方法は、音声アクティビティ検出(VAD)と呼ばれます。ただし、これには同じ問題がある傾向があります。VADを使用するアルゴリズム/プログラムは、アクティビティのしきい値に達したかどうかを返すだけで、そのようなしきい値の前後に「類似性」値はありません。あるいは、多くの人は人間の音声との類似性ではなく、音量だけを探します。
例:Speex、Listener、FreeSWITCH
何か案は?