タグ付けされた質問 「speech-processing」

1
音声認識のノイズリダクションは、人間の音声をより「わかりやすく」するためのノイズリダクションとどう違うのですか。
これは、主に既存の音声認識システムのノイズ低減に取り組んでいるため、しばらくの間興味を持っていた質問です。 ノイズリダクションテクニックに関するほとんどの論文は、音声を人間にとってよりわかりやすくする方法、または「音声品質」などのあいまいな用語を改善する方法に焦点を当てているようです。 このような基準を使用すると、ノイズの多い音声信号を人間が聞き取りやすくするフィルターを特定できると思います。ただし、音声認識システムの精度を向上させるためにノイズ除去された音声信号を評価しようとするときに、これらの基準を単純に適用できるかどうかはわかりません。 この違いについて論じている論文は本当に見つかりません。音声了解度と音声品質は音声認識システムの精度と相関していますか?たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか?または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか? 誰かが私を正しい方向に向けてもらえたら幸いです。前もって感謝します!

3
ライブオーディオ入力で笛、ポップ、その他の音を検出するにはどうすればよいですか?
私はSOに関する多くの質問を読みました、そして率直に言って、それらのそれぞれはそれについて取り組む特定の方法を説明していません。「FFTを実行する」や「ゼロクロッシング」などと言う人もいます。しかし、デジタルオーディオ入力が特定の周波数の振幅の配列で構成されていることを理解しているだけです。それを超えて。 今私はナイキストの定理、周波数、振幅、フーリエ級数などを知っています、そしてそれは私がいくつかの学期の大学のプログラムでそれをした2-3年前からです。しかし、当時はフーリエの実際の使用法についてはあまり教えられていませんでした。私は、主題を理解するのに十分なことを学ぶだけで、その主題についてさらに掘り下げることはありませんでした。しかし、今、私はそれらすべてのものを使わなければならないつもりです。 これが私が検出しようとしている音のスナップショットです: 明らかに、サウンドにはユニークなグラフがあります。グラフ内の独特のとがった線から特定の特有の特性を抽出する方法を理解したいだけです。どのような振幅、周波数など。そしてどのくらいの時間-それは些細なことですが私は推測します。 わかりやすい説明リストを使って簡単な手順を教えてください-理解できない用語をググググできます。 たぶんこれ?- 入力オーディオデータを取得する スペクトログラムをプロットする ノイズのない環境で検出したいサウンドのスペクトグラムグラフを取得する そのグラフを研究する-その音のユニークな特性を描く (4)で見つかったサウンドの特性を使用して、ライブオーディオフィードでこれらの特定の特性を検出できるある種の関数を作成します 一致が見つかった場合、まあ-仕事は完了です。 アルゴリズムを磨いて、偽陰性を取り除きます。 ああABBBバツバツXZZZ 保存したい音を静かな環境でジェスチャーとしてユーザーに録音してもらうことを考えていました。そして、ユーザーは静かな時間のパディングの間だけで音を出します。録音の最初と最後に3秒。 つまり、最初の3秒間、私のシステムは現在の入力が通常の静かなバックグラウンドサウンドであることを確認します。そして、グラフの突然の変化は音声入力の開始になります。そして、それが停止すると、録音はさらに3秒間続き、その後に静かな時間のパディングが続きます。これはユーザーが手動で行います。次に、パディング時間の間のどこかで、グラフの突然の変化が続いた部分のみの特性を自動的に保存します。 したがって、その部分の特性はそのサウンドのジェスチャーデータとして保存され、後でライブオーディオフィードでその特定のサウンドを検出するために使用されます。 問題は、これらすべてを平易な英語で考えていることです。コードで効率的に実装できるように、数学と物理学について考える必要があります。何を書いてコードのどこに書けばいいのかまったくわからないのですが、SOに関する非常に多くのライブラリと質問があっても、自由に使えます。 これが長かったらごめんなさい。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.