音声分類のための畳み込み深い信念ネットワークを理解するにはどうすればよいですか?


11

「では、階層表現のスケーラブルな教師なし学習のためのたたみ込みの深い信念ネットワーク Leeらによる」。al。(PDF)たたみ込みDBNが提案されています。また、メソッドは画像分類のために評価されます。小さなコーナーやエッジなどの自然なローカル画像機能があるため、これは論理的に聞こえます。

で、「教師なし機能畳み込み深い信念ネットワークを使用してオーディオ分類のための学習・リーらによって」。al。この方法は、さまざまなタイプの分類のオーディオに適用されます。話者識別、性別識別、電話分類、およびいくつかの音楽ジャンル/アーティスト分類。

このネットワークのたたみ込み部分は、画像をエッジとして説明できるように、音声に対してどのように解釈できますか?


誰が論文のコードを持っていますか?

回答:


9

オーディオアプリケーションは、2次元の画像分類問題を1次元で単純化したものです。(たとえば)音素は、エッジや円などの画像機能の音声アナログです。どちらの場合でも、そのような特徴には本質的な局所性があります。それらは、画像の場所または発話の瞬間の比較的小さな近傍内の値によって特徴付けられます。畳み込みは、局所的な近隣内の値の加重平均の制御された規則的な形式です。このことから、DBNの畳み込み形式が意味のある機能の識別と識別に成功できるという期待が生まれました。


1

畳み込みRBMをオーディオデータに適用する場合、著者は最初に短期フーリエ変換を行い、次にスペクトル上のエネルギーバンドを定義しました。次に、変換されたオーディオに畳み込みRBMを適用しました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.