音分類のための特徴抽出


15

サウンドファイルから機能を抽出し、サウンドを特定のカテゴリ(犬の樹皮、車両エンジンなど)に属するものとして分類しようとしています。次のことについて明確にしたい:

1)これはまったく実行可能ですか?音声を認識し、さまざまな種類の犬の樹皮を区別できるプログラムがあります。しかし、音のサンプルを受け取り、それがどんな音なのかを言うことができるプログラムを持つことは可能ですか?(参照する多くのサウンドサンプルを含むデータベースがあると仮定します)。入力音のサンプルは、少しノイズが多い場合があります(マイク入力)。

2)最初のステップは音声特徴抽出だと思います。この記事では、MFCCを抽出し、それらを機械学習アルゴリズムに供給することを提案します。MFCCで十分ですか?一般的に音の分類に使用される他の機能はありますか?

お時間をいただきありがとうございます。

回答:


15
  1. ロングショットでそれは実行可能です-どのくらいまでですか?表示されます。環境音分類のこのタスクはあまりよく研究されていません。また、機械学習パラダイムの選択も重要です-統計的アプローチか、それともバイナリ分類子か?GMM、ANN、SVMから始めることができます。GMMとANNを選択します。
  2. はい、ほとんどの人はMFCCを使用しています。これは、人々が実際に聞いているものとよく相関しており、それ以来、誰もより良いものを思いついていないからです。MPEG-7記述子などの追加機能を追加することもできます。適切な機能の最適化を実行する必要があります。これは、特に分離できない場合は、それほど多くの機能を必要としない場合があるためです。詳細については、以前の回答を参照してください。

スペクトルからの特徴抽出

MFCC抽出

音の検出


夕方に回答を拡大します。
jojek

まだ...拡大の答えを待っている
ニシン

夕方に...
jojek

4

非言語音声(環境は言うまでもありません)は、画像、音声、テキストなどの主要な機械学習メディアタイプの弟のようです。

あなたの質問に答えるために、与えられた音を識別するためにネットワークを訓練することは可能ですか?はい、そうです!しかし、機械学習が難しいのと同じ理由で難しいです。

しかし、実際にオーディオを抑制しているのはなぜですか、そして私がそれを画像と音声の弟と呼ぶ理由は、オーディオには大規模なラベル付きデータセットがないためです。音声にはTIMIT、画像にはImagenNet、CIFAR、Caltechがいくつかあり、テキストおよび自然言語処理には膨大な量の文献があります。

私の知る限り、最大の2つの非言語人間*ラベル付きオーディオデータセットは、UrbanSoundsとESC-100データセットであり、真のディープラーニングアプローチには非常に小さいものです。2層のConvNetを使用して、これらのデータセットにいくつかの公開された混合結果があります。

MFCC機能は、一般的な音声認識および音声分析で確立されたベースライン機能表現です。しかし、他にも多くのオーディオ機能表現があります!このホワイトペーパーでは、オーディオフィーチャタイプの分類を示します。

私が最近見たサウンド分類を行う最もエキサイティングな仕事は、DeepMindのWaveNetと呼ばれる人々によって行われています。


3

ここでは犬の吠え、車のホーン、それは、ニューラルネットワークを使用してtensorflowライブラリに基づいてなどを遊んでいる子供たち:10個のクラスの音の分類のためのソリューションです。サウンドクリップをスペクトログラムに変換することにより、特徴が抽出されます


3
単純にリンクするだけでは、答えとしては十分ではありません。
ジル

はい、リンクの内容を詳しく説明してください。
ピーターK。

2
しかし、それでもリンクに感謝します。
ケビンマーティンホセ

実際、リンクで提供されているチュートリアルで使用されているテクニックについても理解しようとしています。私はコンピュータービジョンと画像処理の専門家なので、音声信号に関する私の知識は非常に限られています。理解が深まったら、回答について詳しく説明します。
abggcv

1

はい、それは非常に実行可能です。NNはこの種の分類トレーニングには優れていますが、必要ではない場合もあります。適切に選択された一連の機能を使用すると、ガウス混合モデルや主成分分析などの古典的なクラスタリングアルゴリズムでも同様に機能します。 。現代のライブラリは、このようなものを約95%以上の時間で正しく処理できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.