これはよく研究された問題であり、90年代半ばに遡ります(DARPA / NISTブロードキャストの文字起こしの課題)。「音声/音楽セグメンテーション」または「オーディオセグメンテーション」を検索すると、何千もの研究論文が見つかります。
この問題を解決するには、2つの広範なアプローチがあります。
教師付き分類
標準の機械学習アプローチを使用して、音声/音楽分類子をトレーニングします。MFCCを入力機能として使用できるほか、ゼロクロッシングレート、4Hzでの振幅変調などの他の基本機能も使用できます。最近では、できるだけ多くの機能を投入し、機能検出技術を使用して最も判別可能な機能を特定することが一般的になりました。 。
任意の分類アルゴリズムで実行できます-サポートベクターマシン、ガウス混合モデル、決定木。分類が完了すると、フレームが誤って分類されます(たとえば、歌の小さなアカペラセグメントは音声として分類されます。またはFX間または音声間のジングルが目立ちます)。これには後処理が必要です。最も一般的なアプローチは、分類子出力のシーケンスにモードフィルタリング(投票)を適用することです。分類と時間平滑化は、隠れマルコフモデルを使用して、分類と時間平滑化の両方で1つにまとめられることがあります。
参照:サポートベクターマシンを使用したコンテンツベースのオーディオ分類とセグメンテーション、Luなど。
教師なしセグメント変更検出
信号上をスライドする10秒のウィンドウについて考えます。前半、後半でオーディオ特徴を計算し、統計的検定を使用して、最も可能性が高い仮説を決定します。2つのオーディオ特徴のセットは、同じ分布から抽出されるか、2つの異なる分布から抽出されます。テストの出力から、ウィンドウの中央がスピーチと音楽セグメントの境界に対応している可能性がどの程度あるかがわかります。スコアが最も高いポイントをセグメント境界として選択します。
監視ありアプローチと同じオーディオ機能(MFCC、ZCR、4 Hzでの振幅変調...)を使用できます。
統計的検定の「教科書」基準:ベイジアン情報基準(BIC)。
参考:ベイズ情報量基準による周回監視されていないオーディオストリームのセグメンテーションおよびクラスタリング、Zhou&Hansen(BICの紹介)。
無線オーディオストリームの自動セグメンテーションのための監視ありと監視なしのアプローチの組み合わせ、Richard、Ramona、およびEssid(よりエキゾチックな変化検出テスト用)。