サウンドファイルから機能を抽出し、サウンドを特定のカテゴリ(犬の樹皮、車両エンジンなど)に属するものとして分類しようとしています。次のことについて明確にしたい:
1)これはまったく実行可能ですか?音声を認識し、さまざまな種類の犬の樹皮を区別できるプログラムがあります。しかし、音のサンプルを受け取り、それがどんな音なのかを言うことができるプログラムを持つことは可能ですか?(参照する多くのサウンドサンプルを含むデータベースがあると仮定します)。入力音のサンプルは、少しノイズが多い場合があります(マイク入力)。
2)最初のステップは音声特徴抽出だと思います。この記事では、MFCCを抽出し、それらを機械学習アルゴリズムに供給することを提案します。MFCCで十分ですか?一般的に音の分類に使用される他の機能はありますか?
お時間をいただきありがとうございます。