曲内の数学関数を認識する

私はDSPを初めて使用しますが、このStackExchangeを発見したばかりなので、この質問を投稿するのにふさわしくない場合はおologiesびします。

より数学的な用語でジャンルを説明するリソースはありますか？たとえば、曲のこのセクションの信号でFFTを実行した場合（リンクがそこから開始しない場合は2:09）、このセクションにその大まかな種類があることを検出できる方法はありますか音の？このような音は、私が比較できる数学関数に従っていますか？ http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s（リンクはすぐにサウンドの再生を開始します）

教師あり学習テクニックを使用する唯一の方法ですか、それとも別のアプローチがありますか（好ましくは、監視を必要としません）？

アドバイスありがとうございます。

— XSL
ソース

FFTを使用して、ドラムビートとフルートを検出できますが、ジャンルは検出できません。音に関する非常にローカルなものは確かですが、ファイル全体の音楽的特徴ではありません。

— エンドリス

音の「粗さ」を認識することは可能ですか？これはMFCCの出番ですか？

— XSL

あなたが探している違いは、経験的と理論的（監視下と非監視下ではなく）に似ていると思いますが、私はそれについて間違っている可能性があります。言い換えれば、理想的なことは、歌を分類するために使用できる単なる不透明なデータではなく、さまざまなジャンルの理論的な定義を持つことです（実際の理解なしに）。

ただし、一般的なジャンルの分類では、最初にジャンルの定義を作成するだけの場合でも、少なくとも例からのトレーニングにこだわることになります。あなたの例に関しては、人々は[YouTubeで]主張する頻度を考慮の上に与えられたトラックはダブステップが本当にあるかどうか（例えば、よりだ任意のトラックダビーと少ないグラグラジャンルが実在のぐらつきなしに始まったにもかかわらず、）。人々は時間をかけて例を通してジャンルを定義するので、その振る舞いを再現するアルゴリズムもいくつかの例を必要とすることを期待するのは合理的です。人々がジャンルを記述する方法は、ほとんど特徴ベクトルに似ていますとにかく、彼らは曲についての質問のリストを尋ねます（例えば、それはもっと壊れやすいですか、ぐらついていますか？それはたくさんのサブベースを持っていますか？どれくらいですか？テンポは何ですか？ボーカルはありますか？など）。

もちろん、ジャンルの直感的な理解も提供する機能のリストを選択できる場合があります。「ダイナミックレンジ」のような機能は、人が耳で検出することもできますが、「タイムドメインゼロクロッシング」のようなものは、たとえ分類に適していても、あまり直感的ではありません。次の論文には、あなたにとって興味深いかもしれない機能がかなりあります。

George Tzanetakis、Perry R. Cook：オーディオ信号の音楽ジャンル分類。IEEE Transactions on Speech and Audio Processing 10（5）：293-302（2002）link。

粗さを測定するには、音響心理学的粗さから始めるのが良いでしょうが、たとえば、ダブステップリードとエレクトロリードを区別するには不十分な場合があります。より細かく区別するために、調べるべきことの1つは音色の認識です。以下の論文には、テクニックに関する適切な調査があります。

TH Park、「自動楽器音色認識に向けて」博士号論文、プリンストン大学、NJ、2004年リンク。

また、任意の音色のカスタムスケールを構築するために使用される、音色、チューニング、スペクトル、スケールの知覚粗さに関連するモデルもあります。アイデアは、互いに非常に近い高調波が、不協和音として知覚されるビート周波数を生成するというものです。付録FおよびEからの言い換え、

$F$ $f_1,f_2,...,f_n$

$D_{F} = 1 / 2 \sum_{私 = 1}^{n} \sum_{j = 1}^{n} d （ \frac{| f_{私} - f_{j} |}{分（ f_{私} 、 f_{j} ）} ）$ $D_F = 1/2 \space \sum_{i=1}^{n}{} \space \sum_{j=1}^{n}{\space d\left({|f_i - f_j| \over{\min(f_i,f_j)}} \right) }$
$d （バツ） = e^{- 3.5 バツ} - e^{- 5.75 バツ}$ $d(x) = e^{-3.5 x} - e^{-5.75 x}$
はPlomp-Levelt Curveのモデルです。

与えられたコードが音色に対してどれだけ心地よいかを測定するために使用されます（不協和音を最小化することにより）。心理音響的多様性の粗さ、または固有の不協和音がそれ自体であなたの目的に非常に有益であるかどうかはわかりませんが、他の測定基準と組み合わせて役立つかもしれません。

おそらくジャンルよりも数学的に音色を分類するほうが幸運でしょう。たとえば、弦には偶数と奇数の高調波がありますが、クラリネットには奇数の高調波しかありません（Sawtooth wave、Square waveを参照）。ダブステップウォブルはLFO駆動のフィルター（ローパスフィルターやフォルマントフィルター）で行われる傾向があるため、スペクトルフラックス（上記の[Tzanetakis]を参照）のようなものが機能として適切な出発点になる可能性があります。しかし、私は誰もがまだ「ぐらつき」の数学的分類を研究したとは思わない;）

— データガイスト
ソース

データガイストからの優れた応答。また、私はお勧めしisophonics.net/QMVampPluginsあなたはより多くの情報とソースコードとのdevのプラットフォームを探している場合

— ダン・バリー

@Dan素晴らしく見える、そのリンクをありがとう。

— データガイスト

ニッチな研究対象を見つけました！：D素晴らしい回答とリンクをありがとう。Googleをあからさまに使用するのではなく、方向性を示してくれました。

— XSL

喜んでお手伝いします:)

— データガイスト