時間データのパターン認識


9

音声以外の音を検出して分類しようとしています。現在、私は探している機能として、トレーニングサウンドからの一連の移動するオーバーラップしたパワースペクトルを使用しています。

分析を行うときは、フィーチャの数が同じになるように、オーバーラップしたスペクトルの同じ量を計算しています。現在、パフォーマンスはあまり良くなく、無音か非無音かを検出することしかできません。

このタイプの信号検出にはどのような技術がありますか?私の懸念の1つは、時間領域で音の長さが異なると、特徴ベクトルの長さが異なるため、同じ分類子を使用できないため、こだわっていることです。

回答:


3

音声か非音声かを検出しようとしていますか、それとも区別しようとしている非音声音のクラスはありますか?あなたの質問ははっきりしていません。

まともな最初のアプローチは、信号をフレームにブロックし、メル周波数ケプストラム係数(MFCC)、デルタMFCC(隣接するフレームのMFCC間の差)およびデルタデルタMFCC(MFCC間の差)を計算することだと思います2フレーム離れているフレーム内)。これはそれを行う唯一の方法ではありませんが、問題の領域についてのより具体的な知識がなければ、これはおそらく開始するのに適した場所です。

グーグルするだけで、MFCCに慣れていない場合に、MFCCを計算する方法についての良いリファレンスが得られるはずです。基本的には、DFTを取り、大きさを取り、人間の聴覚に対応する三角ウィンドウ内のエネルギーを計算し、これらの係数のDCTを本質的に圧縮ステップとして取り、高次係数を破棄します。通常、最初の12個の係数のみを取ります。この投稿では、DCTステップの意味について説明しています。MFCC抽出プロセスでDCTステップを解釈するにはどうすればよいですか?

次に、これらの係数をSVMの機能として使用できます。


2

あなたは一般に、音声検出の問題を検討していると思います。これは永遠に存在しており、これを行うための無数の方法が現在までに開発されています。たとえば、このペーパーのように、スペクトルテクニックも使用しているので、そこから始めたいと思うかもしれません。古き良きGoogle検索は、論文や記事へのリンクを含む多くの結果を返します。

一般に、音声検出には2つのやや異なるアプローチがあります。1つは良好な音声雑音比(音声は周囲のノイズ、音楽、その他の無関係なコンテンツよりも大きい)の仮定を可能にし、もう1つはそのような仮定を行わず、非常にノイズの多い信号(音声が埋め込まれている)で音声の存在を識別しようとしますノイズ)。あなたがしようとしているものに応じて、あなたは非常に異なる論文を見ることになります。おそらく、質問を少し明確にして、使用している音声信号の種類について詳しく説明すると、このサイトがさらに役立つ可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.