入力数が柔軟なニューラルネットワーク?


7

入力が異なる長さのベクトルである場合、一貫した出力を提供するニューラルネットワークを作成することは可能ですか?

私は現在、さまざまな長さのオーディオファイルを多数サンプリングし、ニューラルネットワークをトレーニングして、特定の入力で必要な出力が得られる状況にあります。異なる番号の入力を行う、長さが異なるオーディオファイルのサンプルを指定して、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

回答:


9

はい、これは、オーディオをRecurrent Neural Network(RNN)へのシーケンスとして扱うことによって可能です。シーケンスの最後で正しいターゲットに対してRNNをトレーニングしたり、入力からの別のシーケンスオフセットを予測したりすることもできます。

ただし、RNNの構築とトレーニングに入るオプションについては少し学ぶ必要あることに注意してください。これはより単純な階層化フィードフォワードネットワークを検討している間はまだ学習していません。最新のRNNは、メモリーゲートを含むレイヤー設計を利用しています。最も一般的な2つのアーキテクチャはLSTMとGRUです。これらは、メモリーゲートがレイヤー間およびレイヤー内のウェイトに加えてウェイトを学習する必要があるため、各レイヤーによりトレーニング可能なパラメーターを追加します。

RNNは、MFCCまたは類似の機能セットで既に処理されたオーディオシーケンスから予測するために広く使用されます。これは、シーケンス化されたデータを入力および/または出力として処理できるためです。これは、話し言葉などの可変長データを処理するときに望ましい機能です。、音楽など

注目に値する他のいくつかの事柄:

  • RNNは、可変長のデータのシーケンス、およびシーケンスが展開する明確に定義された次元がある場合にうまく機能します。ただし、順序やシーケンスが明確でない可変サイズのフィーチャセットにはあまり適していません。

  • RNNは、信号処理、NLP、および関連タスクの最新の結果を取得できますが、トレーニングデータが非常に多い場合に限られます。その他の、より単純なモデルは、データが少ない場合と同じように、またはより適切に機能します。

  • 生のオーディオサンプルからMFCCを生成する特定の問題について:生のオーディオからMFCC機能を予測するRNNを作成することは可能ですが、これを行うにはある程度の労力と実験が必要であり、多くの処理能力を必要とする可能性があります。通常のオーディオサンプルレートで非常に長いシーケンスを処理するのに十分強力なRNN。FFTから始まる標準的なアプローチを使用して生のオーディオからMFCCを作成することははるかに簡単であり、正確であることが保証されています。


ああ..出力がクラスではなく値であることを言及するのを忘れていたと思います=> RNNは値ではなくクラスに分類すると思いますか?
Carlton Banks

1
@CarltonBanks:RNN出力は、他のNNと同じタイプのターゲット(同じ損失関数を使用)でトレーニングできます。したがって、分類または回帰を行うことができます。
Neil Slater

オーディオの場合、これは優れたソリューションです。他の人にとっては、RNNがシーケンスの順序の形式を想定しているため、一部のユースケースではあまり役に立たないことに注意する必要があります
Jan van der Vegt

@JanvanderVegt:はい、特徴ベクトルの可変サイズの「バッグ」がある場合、RNNはおそらくあまり役​​に立ちません。私はそれをより明確にするように努めます
ニール・スレーター

1
@ echan00:いいえ、単純なCNNでは入力を可変長にすることはできません。パッドするか、固定サイズにトリミングする必要があります。リンクした紙は設定されたサイズのウィンドウ化された時間枠で動作する可能性が高く、プロジェクトのオプションになる可能性もあります。つまり、信号を(おそらくオーバーラップする)セグメントに分割し、個別に処理します-これはシーケンスにうまく機能しますからシーケンスへの分類または回帰。ただし、シーケンスから単一の値にはあまり適していません。さまざまなCNN / RNNハイブリッドを入手することもできます。
Neil Slater
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.