スペクトログラムを使用して音(たとえば、動物の音)を分類する可能性を検討していました。アイデアは、深い畳み込みニューラルネットワークを使用して、スペクトログラムのセグメントを認識し、1つ(または複数)のクラスラベルを出力することです。これは新しいアイデアではありません(たとえば、クジラの音の分類や音楽スタイルの認識を参照)。
私が直面している問題は、さまざまな長さのサウンドファイルがあり、したがってさまざまなサイズのスペクトログラムがあることです。これまでのところ、私が見たすべてのアプローチでは固定サイズのサウンドサンプルを使用していますが、サウンドファイルが10秒または2分の長さになる可能性があるため、これを行うことはできません。
たとえば、最初は鳥の音、最後はカエルの音(出力は "Bird、Frog"になります)。私の現在の解決策は、ニューラルネットワークに一時的なコンポーネントを追加することです(リカレントニューラルネットワークをさらに作成する)が、今のところそれを単純に保ちたいと思います。アイデア、リンク、チュートリアルなど...?