MFCCは、検索システムに音楽を表現する最適な方法ですか？

信号処理手法であるMel周波数Cepstrumは、機械学習タスクで使用するために楽曲から情報を抽出するためによく使用されます。この方法は短期間のパワースペクトルを与え、係数は入力として使用されます。

音楽検索システムの設計では、そのような係数は作品の特性と見なされます（明らかに一意である必要はありませんが、区別されます）。ネットワークでの学習により適した特性はありますか？エルマンネットワークのようなもので使用されている楽曲の低音進行のような時間的に変化する特性は、より効果的に機能しますか？

どの特性が、分類が行われる可能性のある十分に広範なセットを形成するでしょうか？

— ジョンスカ
ソース

特定のオーディオクリップのユニークな品質を探している検索に取り組んでいますか？または類似の音楽を識別したいですか？

— Andrew Rosenberg、

@AndrewRosenberg類似の音楽を特定するという流れに沿って。

— jonsca

（数年後）、MFCCをいじくり回す方法はたくさんあります。Kinunnen et al。、Frequency Warping and Robust Speaker Verifications：A Comparison of Alternative Mel-Scale Representations 2013、5p、60係数を使用します。そして、何を最適化しますか？開いていないデータベースは何ですか？だから私は（専門家ではない）質問は広すぎて答えられないだろうと言います。

— denis

@denis情報をありがとう。これは、運命の悪い機械学習ベータ版から来ました（初めて）。少し漠然としています。

— jonsca 2014年

ある時点で、これについて少し作業を行いました。私たちが抽出した機能のセットは、このNIPSワークショップペーパーに記載されています。これらのフィールドで使用されているデータセットについていくつかの疑問がありましたが、フィールドで他の一部の著者の結果を再現できなかったことを認めなければなりません（このフィールドで著者が使用したデータセットは厳選され、リリースされない傾向があることに注意してください）著作権上の理由から一般に公開されますが、常にそうとは限りません）。基本的に、それらはすべて短期的なスペクトルの特徴でした自己回帰係数もスローされます。私たちはジャンルの分類を検討していましたが、これは人間によって（素晴らしい精度ではなく、一貫した合意ではありませんが...）非常に短いタイムスパン（<1s）で実行できることがわかっており、短期的な機能の使用を検証します。一般的なジャンル、アーティスト、アルバム、プロデューサーの分類よりも複雑なことに興味がある場合は、より長い範囲の機能が必要になる場合があります。そうでない場合、これらの短期的なスペクトル機能が最もよく機能する傾向があります。

— tdc
ソース

AR係数を投入する目的は何ですか？

— jonsca

@jonsca私たちは多くの「弱い」学習者を組み合わせることで機能するブースティング手法を使用していたため、簡単に計算できて何らかの利点を提供できる機能を使用することにしました。それが有用であるために弱い学習者に必要なのは、それが偶然のレベルを超えて分類できることです。AR係数はスペクトルエンベロープの圧縮と同等であり、非常に緩やかですが、そのウィンドウ内の音楽の短期的な情報の複雑さの概念を示します。

— tdc

@tdc、「データセットは一般に公開されない傾向があります...」：音素のラベルが付いた無料のオンライン音声データセットを知っていますか？

— denis

@denis私が知っているのはこれだけです：orange.biolab.si/datasets/phoneme.htm

— tdc

@tdc、ありがとうございます。ただし、これは、Elements of stat learningの11母音のみです。最大1000 x 11機能（古代LPC）です。

— denis