音声認識のノイズリダクションは、人間の音声をより「わかりやすく」するためのノイズリダクションとどう違うのですか。

これは、主に既存の音声認識システムのノイズ低減に取り組んでいるため、しばらくの間興味を持っていた質問です。

ノイズリダクションテクニックに関するほとんどの論文は、音声を人間にとってよりわかりやすくする方法、または「音声品質」などのあいまいな用語を改善する方法に焦点を当てているようです。

このような基準を使用すると、ノイズの多い音声信号を人間が聞き取りやすくするフィルターを特定できると思います。ただし、音声認識システムの精度を向上させるためにノイズ除去された音声信号を評価しようとするときに、これらの基準を単純に適用できるかどうかはわかりません。

この違いについて論じている論文は本当に見つかりません。音声了解度と音声品質は音声認識システムの精度と相関していますか？たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか？または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか？

誰かが私を正しい方向に向けてもらえたら幸いです。前もって感謝します！

— marlonfl
ソース

この違いについて論じている論文は本当に見つかりません。

このテーマに関する本は全部あります：

堅牢な自動音声認識第1版

音声了解度と音声品質は音声認識システムの精度と相関していますか？

通常、いいえ、通常、ノイズリダクションは予測できない方法で機能を破壊し、音声認識の精度を低下させます。

たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか？または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか？

第二。さらに、機能ベースのノイズ低減により、実際にはスペクトルから重要な情報が完全に削除されるため、クリーンシステムの精度を修復できません。そのため、最新のアプローチは、事前にノイズ低減アルゴリズムを使用する代わりに、ノイズの多いデータに対してマルチスタイルのトレーニングを実行することです。より正確な認識で終わります。

— ニコライ・シュミレフ
ソース

ご回答ありがとうございます。適切な論文を探していなかったと思います。その本を見てみましょう。

— marlonfl

わかりました。論文が必要な場合は、CHIME-4チャレンジの結果を確認できます。主に最先端の堅牢なASRです。

— Nikolay Shmyrev 2017