携帯電話のリアルタイムオーディオで人間の音声を検出する

Androidアプリの開発を検討しています。機能の一部として、アプリは3〜5秒の音声をランダムにサンプリングし、人間の音声が含まれているかどうかを分類する必要があります。この概念が音声アクティビティ検出と呼ばれていることを理解していますか？

これを携帯電話に実装する最良の方法は何でしょうか。エネルギーベースの機能としきい値を使用して基本的なシステムを開発しました。MFCCやフォルマントなどの機能を使用して、ノイズの影響を受けにくいものを見つけたいと思っていますか？私はいくつかの論文を読みましたが、それらのほとんどはデータの収集とモデルのトレーニングを必要とします。リアルタイムで動作するライブラリやフレームワークはありますか？

audio speech real-time

— ドニー・ジョージ
ソース

http://www.speex.org/のオープンソースコードにあるspeexにはVAD が含まれていると思います。ライセンスを守って、それを見て実装のアイデアを得ることができるかどうかを確認してください。

— VladP
ソース