信号処理 sound-recognition

4

サウンドファイルから機能を抽出し、サウンドを特定のカテゴリ（犬の樹皮、車両エンジンなど）に属するものとして分類しようとしています。次のことについて明確にしたい： 1）これはまったく実行可能ですか？音声を認識し、さまざまな種類の犬の樹皮を区別できるプログラムがあります。しかし、音のサンプルを受け取り、それがどんな音なのかを言うことができるプログラムを持つことは可能ですか？（参照する多くのサウンドサンプルを含むデータベースがあると仮定します）。入力音のサンプルは、少しノイズが多い場合があります（マイク入力）。 2）最初のステップは音声特徴抽出だと思います。この記事では、MFCCを抽出し、それらを機械学習アルゴリズムに供給することを提案します。MFCCで十分ですか？一般的に音の分類に使用される他の機能はありますか？お時間をいただきありがとうございます。

15 audio mfcc machine-learning classification sound-recognition

2

笑いはいつ始まりますか？

私の週末のプロジェクトの1つは、信号処理の深海に連れて行ってくれました。いくつかの強力な数学を必要とするすべてのコードプロジェクトと同様に、理論的な根拠がないにも関わらず、解決策に手を加えたいと思っていますが、この場合は何もありません。つまり、テレビ番組中にライブの視聴者が笑うタイミングを正確に把握しようとしています。私は笑いを検出するための機械学習アプローチを読むのにかなりの時間を費やしましたが、それは個々の笑いを検出することと関係があることに気付きました。一度に笑う200人は、音響特性が大きく異なります。私の直感では、ニューラルネットワークよりもはるかに粗雑な手法で区別できるはずです。私は完全に間違っているかもしれません！問題についての考えをいただければ幸いです。これまでに試したことは次のとおりです。最近のサタデーナイトライブのエピソードから5分の抜粋を2秒のクリップに切り取りました。次に、これらの「笑い」または「笑いなし」とラベルを付けました。LibrosaのMFCC機能抽出ツールを使用して、データに対してK-Meansクラスタリングを実行しました。2つのクラスターがラベルに非常にきれいにマッピングされました。しかし、より長いファイルを反復処理しようとしたとき、予測には意味がありませんでした。これから試すこと：これらの笑いのクリップを作成することについて、より正確になります。ブラインドスプリットアンドソートを行うのではなく、手動で抽出して、ダイアログが信号を汚染しないようにします。次に、それらを1/4秒のクリップに分割し、これらのMFCCを計算し、それらを使用してSVMをトレーニングします。この時点での私の質問：これは理にかなっていますか？ここで統計が役立ちますか？私はAudacityのスペクトログラムビューモードでスクロールしてきましたが、笑いが発生する場所をかなりはっきりと見ることができます。対数パワースペクトログラムでは、スピーチは非常に特徴的な「溝」のように見えます。対照的に、笑いは、ほぼ正規分布のように、周波数の広いスペクトルを非常に均等にカバーします。拍手で表されるより限定された頻度のセットによって、拍手と笑いを視覚的に区別することさえ可能です。これにより、標準偏差を考えることができます。コルモゴロフ–スミルノフ検定と呼ばれるものがありますが、ここで役立つかもしれません。（上の画像では、45％のところでオレンジ色の壁がヒットしているように笑い声を見ることができます。）線形スペクトログラムは、笑いが低周波数でよりエネルギッシュであり、高周波数に向かってフェードアウトすることを示しているようです-これはピンクノイズとしての資格があることを意味しますか？もしそうなら、それは問題の足がかりになりますか？専門用語を誤用した場合は謝罪します。この用語についてはウィキペディアにかなり載っていますが、ごちゃごちゃになったとしても驚かないでしょう。

14 audio sound-recognition

2

複数のマイクを使用して音の方向を検出する

まず、似たようなスレッドを見たことがありますが、私が達成しようとしているスレッドとは少し異なります。呼ぶ人に追従するロボットを構築しています。私のアイデアは、3つまたは4つのマイクを使用することです。つまり、ロボットが呼び出された方向を決定するために、次の配置で使用します。 Sが音源の場合、A、B、Cはマイクです。アイデアは、AB、AC、BCのペアから記録された信号の位相相関を計算し、それに基づいて、一種の三角測量を使用してソースを指すベクトルを作成します。音声でアクティブ化されるため、システムはリアルタイムで動作する必要さえありません-すべてのマイクからの信号が同時に記録され、音声は1つのマイクのみからサンプリングされ、音声シグネチャに適合する場合、位相相関は方向を計算するための秒の最後の端数。ロボットが別の部屋から呼び出された場合や、複数の反射がある場合、これはうまく機能しない可能性があることを認識しています。これは単なるアイデアですが、このようなことを試みたことは一度もありません。実際に機能するハードウェアを構築する前に、いくつか質問があります。これはこれを行う典型的な方法ですか？（すなわち、ノイズキャンセルのために電話で使用されますか？）他に可能なアプローチは何ですか？どういうわけか、3つのソース間の位相相関を同時に計算できますか？（計算をスピードアップするため）このシステムには、22kHzのサンプルレートと12ビットの深さで十分ですか？特にビット深度が気になります。分離を改善するために、マイクを別々のチューブに配置する必要がありますか？

9 sound-recognition

タグ付けされた質問 「sound-recognition」

タグ付けされた質問「sound-recognition」