音声と音楽の変化を検出する


7

音声部分と音楽部分の両方を含むオーディオファイルがたくさんあります(ラジオなど)。たとえば、特定のファイルは次のセクションで構成される場合があります。

music --- speech --- music --- speech --- music --- speech --- music

私の目標は、ファイルが音楽と音声の間でいつ変更されるかを検出し、音声部分だけを残して音楽部分を切り取ることです。ただし、音声と音楽を区別するためにどのような方法を使用するかはわかりません。テンポを検出することを検討していましたが、一部の音楽が非常に遅いか、テンポが変化しています。

(私たちがそれをしている間、私が自分で書く必要がないように、音声と音楽を区別できる既存のソフトウェアライブラリはありますか?)


ブラインドソース分離問題のように聞こえる
Phorce

音楽とスピーチはミックスされていません(まあ、そうですが、スピーチセクションの最初と最後の数秒間だけです)ので、私はそうは思いません。
haroba 2014

マイクはいくつありますか?各セグメントの期間はどれくらいですか?セグメンテーションプロパティを確認する場合、定義された特性がないため、これは困難です。たとえば、人は長い時間話し、音楽は予想よりも短い時間再生される可能性があります。(スピーチがどのように、音楽がどのように見えるかの)トレーニングデータを持っていますか?
Phorce 2014

音楽の種類によって異なります。しかし、有声スピーチは通常単一のピッチを持っています。一方、音楽はポリフォニックであり、人間の話す範囲外の低音(ベースからソプラノ)を含む場合があります。
hotpaw2 14

1
@kRazzyR、私はこのペーパーに基づいて解決策を書いてしまいました:speech.kth.se/prod/publications/files/3437.pdf
haroba

回答:


13

これはよく研究された問題であり、90年代半ばに遡ります(DARPA / NISTブロードキャストの文字起こしの課題)。「音声/音楽セグメンテーション」または「オーディオセグメンテーション」を検索すると、何千もの研究論文が見つかります。

この問題を解決するには、2つの広範なアプローチがあります。

教師付き分類

標準の機械学習アプローチを使用して、音声/音楽分類子をトレーニングします。MFCCを入力機能として使用できるほか、ゼロクロッシングレート、4Hzでの振幅変調などの他の基本機能も使用できます。最近では、できるだけ多くの機能を投入し、機能検出技術を使用して最も判別可能な機能を特定することが一般的になりました。 。

任意の分類アルゴリズムで実行できます-サポートベクターマシン、ガウス混合モデル、決定木。分類が完了すると、フレームが誤って分類されます(たとえば、歌の小さなアカペラセグメントは音声として分類されます。またはFX間または音声間のジングルが目立ちます)。これには後処理が必要です。最も一般的なアプローチは、分類子出力のシーケンスにモードフィルタリング(投票)を適用することです。分類と時間平滑化は、隠れマルコフモデルを使用して、分類と時間平滑化の両方で1つにまとめられることがあります。

参照:サポートベクターマシンを使用したコンテンツベースのオーディオ分類とセグメンテーション、Luなど。

教師なしセグメント変更検出

信号上をスライドする10秒のウィンドウについて考えます。前半、後半でオーディオ特徴を計算し、統計的検定を使用して、最も可能性が高い仮説を決定します。2つのオーディオ特徴のセットは、同じ分布から抽出されるか、2つの異なる分布から抽出されます。テストの出力から、ウィンドウの中央がスピーチと音楽セグメントの境界に対応している可能性がどの程度あるかがわかります。スコアが最も高いポイントをセグメント境界として選択します。

監視ありアプローチと同じオーディオ機能(MFCC、ZCR、4 Hzでの振幅変調...)を使用できます。

統計的検定の「教科書」基準:ベイジアン情報基準(BIC)。

参考:ベイズ情報量基準による周回監視されていないオーディオストリームのセグメンテーションおよびクラスタリング、Zhou&Hansen(BICの紹介)。

無線オーディオストリームの自動セグメンテーションのための監視ありと監視なしのアプローチの組み合わせ、Richard、Ramona、およびEssid(よりエキゾチックな変化検出テスト用)。


親切なサー/奥様、この「音声内の音声の領域や音楽の領域などの検出」を実行できるpythonライブラリを教えていただけますか?私はこの問題を解決しようとしていますが、あまり進歩していません。
kRazzy R 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.