あなたが探している違いは、経験的と理論的(監視下と非監視下ではなく)に似ていると思いますが、私はそれについて間違っている可能性があります。言い換えれば、理想的なことは、歌を分類するために使用できる単なる不透明なデータではなく、さまざまなジャンルの理論的な定義を持つことです(実際の理解なしに)。
ただし、一般的なジャンルの分類では、最初にジャンルの定義を作成するだけの場合でも、少なくとも例からのトレーニングにこだわることになります。あなたの例に関しては、人々は[YouTubeで]主張する頻度を考慮の上に与えられたトラックはダブステップが本当にあるかどうか(例えば、よりだ任意のトラックダビーと少ないグラグラジャンルが実在のぐらつきなしに始まったにもかかわらず、)。人々は時間をかけて例を通してジャンルを定義するので、その振る舞いを再現するアルゴリズムもいくつかの例を必要とすることを期待するのは合理的です。人々がジャンルを記述する方法は、ほとんど特徴ベクトルに似ています とにかく、彼らは曲についての質問のリストを尋ねます(例えば、それはもっと壊れやすいですか、ぐらついていますか?それはたくさんのサブベースを持っていますか?どれくらいですか?テンポは何ですか?ボーカルはありますか?など)。
もちろん、ジャンルの直感的な理解も提供する機能のリストを選択できる場合があります。「ダイナミックレンジ」のような機能は、人が耳で検出することもできますが、「タイムドメインゼロクロッシング」のようなものは、たとえ分類に適していても、あまり直感的ではありません。次の論文には、あなたにとって興味深いかもしれない機能がかなりあります。
George Tzanetakis、Perry R. Cook:オーディオ信号の音楽ジャンル分類。IEEE Transactions on Speech and Audio Processing 10(5):293-302(2002)link。
粗さを測定するには、音響心理学的粗さから始めるのが良いでしょうが、たとえば、ダブステップリードとエレクトロリードを区別するには不十分な場合があります。より細かく区別するために、調べるべきことの1つは音色の認識です。以下の論文には、テクニックに関する適切な調査があります。
TH Park、「自動楽器音色認識に向けて」博士号 論文、プリンストン大学、NJ、2004年リンク。
また 、任意の音色のカスタムスケールを構築するために使用される、音色、チューニング、スペクトル、スケールの知覚粗さに関連するモデルもあります。アイデアは、互いに非常に近い高調波が、不協和音として知覚されるビート周波数を生成するというものです。付録FおよびEからの言い換え、
Ff1、f2、。。。、fn
DF= 1 / 2 Σ i = 1n ∑j = 1n d(| f私− fj|分(f私、fj))
d(x )= e− 3.5 x− e− 5.75 x
はPlomp-Levelt Curveのモデルです。
与えられたコードが音色に対してどれだけ心地よいかを測定するために使用されます(不協和音を最小化することにより)。心理音響的多様性の粗さ、または固有の不協和音がそれ自体であなたの目的に非常に有益であるかどうかはわかりませんが、他の測定基準と組み合わせて役立つかもしれません。
おそらくジャンルよりも数学的に音色を分類するほうが幸運でしょう。たとえば、弦には偶数と奇数の高調波がありますが、クラリネットには奇数の高調波しかありません(Sawtooth wave、Square waveを参照)。ダブステップウォブルはLFO駆動のフィルター(ローパスフィルターやフォルマントフィルター)で行われる傾向があるため、スペクトルフラックス(上記の[Tzanetakis]を参照)のようなものが機能として適切な出発点になる可能性があります。しかし、私は誰もがまだ「ぐらつき」の数学的分類を研究したとは思わない;)