回答:
はい、これは、オーディオをRecurrent Neural Network(RNN)へのシーケンスとして扱うことによって可能です。シーケンスの最後で正しいターゲットに対してRNNをトレーニングしたり、入力からの別のシーケンスオフセットを予測したりすることもできます。
ただし、RNNの構築とトレーニングに入るオプションについては少し学ぶ必要があることに注意してください。これは、より単純な階層化フィードフォワードネットワークを検討している間はまだ学習していません。最新のRNNは、メモリーゲートを含むレイヤー設計を利用しています。最も一般的な2つのアーキテクチャはLSTMとGRUです。これらは、メモリーゲートがレイヤー間およびレイヤー内のウェイトに加えてウェイトを学習する必要があるため、各レイヤーによりトレーニング可能なパラメーターを追加します。
RNNは、MFCCまたは類似の機能セットで既に処理されたオーディオシーケンスから予測するために広く使用されます。これは、シーケンス化されたデータを入力および/または出力として処理できるためです。これは、話し言葉などの可変長データを処理するときに望ましい機能です。、音楽など
注目に値する他のいくつかの事柄:
RNNは、可変長のデータのシーケンス、およびシーケンスが展開する明確に定義された次元がある場合にうまく機能します。ただし、順序やシーケンスが明確でない可変サイズのフィーチャセットにはあまり適していません。
RNNは、信号処理、NLP、および関連タスクの最新の結果を取得できますが、トレーニングデータが非常に多い場合に限られます。その他の、より単純なモデルは、データが少ない場合と同じように、またはより適切に機能します。
生のオーディオサンプルからMFCCを生成する特定の問題について:生のオーディオからMFCC機能を予測するRNNを作成することは可能ですが、これを行うにはある程度の労力と実験が必要であり、多くの処理能力を必要とする可能性があります。通常のオーディオサンプルレートで非常に長いシーケンスを処理するのに十分強力なRNN。FFTから始まる標準的なアプローチを使用して生のオーディオからMFCCを作成することははるかに簡単であり、正確であることが保証されています。