音声認識のためにビデオファイルからオーディオクリップを抽出します。これらのビデオはモバイル/その他の手作りデバイスからのものであるため、多くのノイズが含まれています。音声のバックグラウンドノイズを減らして、音声認識エンジンに中継する音声が明瞭になるようにします。私はffmpegを使用してこのすべてを行いますが、ノイズ低減フェーズで立ち往生しています。
今まで、次のフィルターを試してみました:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
しかし、結果は非常に残念です。私の理由は、音声が300〜3000 Hzの範囲内にあるため、他のすべての周波数をフィルタリングしてバックグラウンドノイズを抑えることができるからです。私は何が欠けていますか?