これは、主に既存の音声認識システムのノイズ低減に取り組んでいるため、しばらくの間興味を持っていた質問です。
ノイズリダクションテクニックに関するほとんどの論文は、音声を人間にとってよりわかりやすくする方法、または「音声品質」などのあいまいな用語を改善する方法に焦点を当てているようです。
このような基準を使用すると、ノイズの多い音声信号を人間が聞き取りやすくするフィルターを特定できると思います。ただし、音声認識システムの精度を向上させるためにノイズ除去された音声信号を評価しようとするときに、これらの基準を単純に適用できるかどうかはわかりません。
この違いについて論じている論文は本当に見つかりません。音声了解度と音声品質は音声認識システムの精度と相関していますか?たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか?または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか?
誰かが私を正しい方向に向けてもらえたら幸いです。前もって感謝します!