私は過去にスペクトルフラックスを使用しましたが、うまく機能しているようです。基本的な考え方は、関心のある帯域全体で信号のスペクトログラムを作成することです。私たちはあなたの頻度はy軸上にあり、あなたの時間は、x軸上にあると仮定しようそうのように。
これは、スペクトログラムがマトリックスであることを意味します。各列は、信号の時間における1つのスナップショットのFFTの絶対値を表し、各行は、1つの帯域からのエネルギーが時間とともにどのように変化するかを表します。
ここで、列の違いを取得します。つまり、列を取得し、その前の列をそれ自体から減算し、すべての列に対して実行します。(明らかに開始列のみを残します)。次に、すべてのバンドを合計します。つまり、すべての行を合計するだけです。
あなたは信号が成文化1-D信号となってしまいますオンセット。これにより、声がどこから始まるかがわかります。
編集:
発症を検出したので、反対を検出したい場合(つまり、信号がアクティビティを持たない状態になった場合)、スペクトルフラックスは実際にその情報を提供します。あなたが発症するところはどこでも、あなたは正のピークを持ち、あなたが「より良い言葉がない」ために「相殺」をするところはどこでも、あなたは負のピークを持ちます。
最初の正のピークと最後の負のピークを取得して、信号の合計開始時間と停止時間をマークします。