タグ付けされた質問 「speech-recognition」

3
人間の音声ノイズフィルター
誰もが非音声を減衰させるフィルターを知っていますか?私は音声認識ソフトウェアを書いていますが、人間の音声以外はすべて除外したいと思います。これには、バックグラウンドノイズ、くだらないマイクによって生成されるノイズ、またはバックグラウンドミュージックも含まれます。パワースペクトルの6 dBロールオフを補正する1次フィルターを既に実装していますが、ノイズが聞こえます(ただし、音声はずっと明瞭に聞こえます)。ローパスフィルターを使用することを考えましたが、次の2つの理由でそれを行うのは不安です。 ローパスプレフィルターが残りの音声処理に干渉するかどうかはわかりません。人間の耳は20 kHz未満の音しか検出できませんが、音声の処理に必要な高次の高調波を除去するリスクはありません(これが事実かどうかはわかりませんが。私はチャンスを取りたくない)。 特定の子音(f、h、sなど)の励起は、ほぼ完全にホワイトノイズであることを理解しています。いわば、良いノイズを除去するノイズフィルターを実装したくありません。 理想的には、マイクに向かって話している人のスピーチだけを残したいと思います。あなたが何かアイデアを持っているか、私が見逃している何かがある場合、私に知らせてください。大変感謝いたします!

1
音声が人間の音声にどの程度似ているかを判断する
この問題への答えを探している間、このボードが見つけたので、この質問を Stack Overflowからクロスポストすることにしました。 私は、音声セグメントと人間の声の類似性を判定する方法を探しています。これは数値で表現されています。 私はかなり検索しましたが、私がこれまでに見つけたもの(詳細は下記)は、私が必要とするものに実際には合いません。 1つの方法は、音声認識ソフトウェアを使用して音声セグメントから単語を取得することです。ただし、この方法では、人間の発話に対する「類似した」音声を思い付くことができません。多くの場合、音声に単語があるかどうかを判断できますが、明確な単語がない場合、音声がそのような単語を持っていることを近くに伝えることはできません。例:CMU Sphinx、Dragonfly、SHoUT より有望な方法は、音声アクティビティ検出(VAD)と呼ばれます。ただし、これには同じ問題がある傾向があります。VADを使用するアルゴリズム/プログラムは、アクティビティのしきい値に達したかどうかを返すだけで、そのようなしきい値の前後に「類似性」値はありません。あるいは、多くの人は人間の音声との類似性ではなく、音量だけを探します。例:Speex、Listener、FreeSWITCH 何か案は?

1
音声認識のノイズリダクションは、人間の音声をより「わかりやすく」するためのノイズリダクションとどう違うのですか。
これは、主に既存の音声認識システムのノイズ低減に取り組んでいるため、しばらくの間興味を持っていた質問です。 ノイズリダクションテクニックに関するほとんどの論文は、音声を人間にとってよりわかりやすくする方法、または「音声品質」などのあいまいな用語を改善する方法に焦点を当てているようです。 このような基準を使用すると、ノイズの多い音声信号を人間が聞き取りやすくするフィルターを特定できると思います。ただし、音声認識システムの精度を向上させるためにノイズ除去された音声信号を評価しようとするときに、これらの基準を単純に適用できるかどうかはわかりません。 この違いについて論じている論文は本当に見つかりません。音声了解度と音声品質は音声認識システムの精度と相関していますか?たとえば、元のクリーンな音声が与えられた場合に、ノイズ除去された音声信号が音声認識システムにとってどの程度「良い」かを評価できる客観的な指標はありますか?または、ノイズ除去技術がどれほど優れているかを調べる唯一の方法は、ノイズ除去されたデータで音声認識システムをトレーニングし、精度を調べることですか? 誰かが私を正しい方向に向けてもらえたら幸いです。前もって感謝します!

1
異なる音波波形を区別するための特徴ベクトルの設計
次の4つの波形信号を考えてみます。 signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 160.3817 164.5383 171.8134 178.3905 180.8994 172.1375 149.2719 …

1
通話音声を無音/無音に分割する方法は?
私の問題は、バックグラウンドノイズのエネルギーがわからないことです。そのため、エネルギーをしきい値処理することはできません。処理はリアルタイムで行われ、500msec程度で判断します。理想的には、私は静かな子音が無音でないと考えたいです。

2
勾配ベースのハフ変換を実装する方法
私はエッジ検出にハフ変換を使用しようとしています、そして基礎として勾配画像を使用したいと思います。 私はこれまでやっていること、画像所与のIサイズの[M,N]とその偏導関数gx、gy、各画素の勾配角度を計算することですthetas = atan(gy(x,y) ./ gx。同様に、勾配の大きさをとして計算しmagnitudes = sqrt(gx.^2+gy.^2)ます。 ハフ変換を作成するには、次のMATLABコードを使用します。 max_rho = ceil(sqrt(M^2 + N^2)); hough = zeros(2*max_rho, 101); for x=1:M for y=1:N theta = thetas(x,y); rho = x*cos(theta) + y*sin(theta); rho_idx = round(rho)+max_rho; theta_idx = floor((theta + pi/2) / pi * 100) + 1; hough(rho_idx, theta_idx) = hough(rho_idx, theta_idx) + …

2
隠れマルコフモデルの「ベクトル」とはどういう意味ですか?
音声認識で隠しマルコフモデル(HMM)が使用されていることを知っており、ある程度理解しています。しかし、私が知らないのは、入力(音声)が後でHMMで使用されるベクトルに「変換」される方法です。 サウンド入力からベクトルをどのように取得しますか?このベクトルは人間が読めるのですか?

3
Siriは「Hey Siri」と言って私をどのように認識しますか?
私は私のiPhoneは、継続的に言って、私のためにリスニングできる方法を理解しようとしていますHey Siri、Alexa、Hey CortanaまたはOkay Googleすぐに私のバッテリーを下に排出せず。 2種類のアルゴリズムを想像しました。10 ms幅のスライスなどの時間のスライスを200 msごとに記録し、特定の周波数で同期検出を実行するもの。ただし、これらのパラメータは私の声の特性に強く依存します。さらに、それは絶えずHey Siriどこかの真ん中で一致することを試み続けるためにそれでも多くのCPUパワーを消費します。 どのような効率的な低電力アルゴリズム/実装(ハードウェアまたはソフトウェア)がこのようなタスクを実行できますか? これはどういうわけか私が思うこの特許に関連しています:https : //www.google.com/patents/US20160253997 隠れたマルコフモデルについての記事をいくつか読んだが、それが非常に低消費電力のアプローチであるとは思えない。

1
一連のMFCCベクトルの正しいグラフィック解釈は何ですか?
私は音声認識、特に特徴抽出のためのMFCCの使用について研究しています。オンラインで見つけたすべての例は、特定の発話から抽出された一連のMFCCを次のようにグラフ化する傾向があります(私が作成しているソフトウェアから私が生成したグラフ)。 上のグラフからわかるように、 x軸は、(この例では12に1から)MFC係数のそれぞれのために使用されます y軸は、(この例ではおよそ10mlの液体フッ化水素を圧入-12から42の範囲)係数の値のために使用されます あなたは持っているフレームなど多くの行として、またはあなたが抽出されている特徴ベクトル(この例では140)。 ここで見ているのは、すべての特徴ベクトルを一度に重ね合わせたため、時間情報が失われているためです。この表現がどのように役立つかを理解するのに苦労しています。 私の考えでは、抽出したベクトルを次のように表現します(ここでも、私が生成したグラフです)。 上のグラフでは: x軸はフレームまたはベクトル数(1 140)に y軸(-12から42およそ10mlの液体フッ化水素を圧入し、再び)係数値であります あなたは持っている機能ごとに1行(12)。 私にとって、この表現は、特定の各機能の時間的変化を見ることができ、音声アルゴリズムに比較アルゴリズムを適用する方法により強い影響を与えるはずなので、より役立つはずです。 おそらく、2つの表現は等しく有効であり、さまざまな目的に役立ちます。時間領域または周波数領域で信号を調べる必要がある場合と同様ですが、音声認識の場合、各個人の時間の変化を予測します。機能は、各機能の値の密度よりも意味のあるものにしてください(おそらく私は完全に間違っています:P)。 したがって、実際には2つの質問があります。 なぜ最初の表現が広く使われているように見え、2番目の表現ではないのですか? たとえば、動的タイムワーピング-DTWを使用して、このトピックに関連する、抽出されたMFCCの2つのセットを比較する場合、特徴ベクトル(つまり、12特徴の140ベクトル)またはフレーム(140フレームの12ベクトル)を比較しますか? )?(つまり、MxNまたはNxM?) ありがとう!

1
この方程式はどのように平滑化に対応していますか?
データの平滑化について教えてください。これは、ここに投稿された私の以前の質問のフォローアップです。特に、関数を平滑化する方法を彼が言っているJunuxxによるトップの回答は次のとおりです。f(x )f(x)f(x) f』[ t ] = 0.1 f[ t − 1 ] + 0.8 f[ t ] + 0.1 f[ t + 1 ]f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1] f'[t] = 0.1 f[t-1] + 0.8 f[t] + 0.1 f[t+1] ここで、すべてのポイントについて、そのポイントとその2つの隣接ポイントの加重平均を取り、と呼ばれる平滑化バージョンを取得していることがわかります。f[ x ]f[x]f[x]f[ t ]f[t]f[t]f』[ t ]f′[t]f'[t] 音声強調に関する論文では、 y[ i ] = a [ i ] …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.