通話音声を無音/無音に分割する方法は？

私の問題は、バックグラウンドノイズのエネルギーがわからないことです。そのため、エネルギーをしきい値処理することはできません。処理はリアルタイムで行われ、500msec程度で判断します。理想的には、私は静かな子音が無音でないと考えたいです。

audio speech-recognition

完全な答えを出すのに十分な情報がありませんが、あなたの問題は音声アクティビティ検出と呼ばれています。これを行うための合意された最良の方法は1つではありません。見れば、おそらく多くの異なるアプローチに出くわすでしょう。おそらく、他の人がもう少し具体化できるかもしれません。

— Jason R

@Michael Litvin、非線形フィルターのクラスがあります（「エネルギー検出」で「Teager-Kaiser」という名前で使用されます。「ボルテラカーネル」として知られているもののサブセットだと思います。申し訳ありませんが、何も提供できません。。あなたは、あなたが探しているものを見つけるかもしれないそれらの単語の周りを検索した場合より多くの情報が、私はTeager-カイザー方法はクジラの音はVSだけで、バックグラウンドノイズ始まる「とき」に使用されていることを知っている

— スペイシー

あなたが見ることができるパラメータの束があります：

全体的なエネルギー
短期スペクトル：音声はかなり独特の「ピンクのような」スペクトルを持ち、電気的に支配されている場合はノイズ（非音声部分で発生）は白になり、アコースティックバックグラウンドの場合は「赤」（低周波数が重い）になります。ノイズまたはマイクのノイズ
振幅統計。ほとんどのノイズ信号にはガウス分布があり、音声はラプラス分布に近い

これら3つを組み合わせると、かなり堅牢な検出スキームが得られると思います。

— ヒルマー
ソース