タグ付けされた質問 「speech」

4
音声アクティビティ検出用のライブラリ(音声認識ではない)
前回の質問のフォローアップとして、音声検出ライブラリが存在するかどうか疑問に思っていました。音声検出とは、音声バッファを渡し、音声の開始と停止のインデックスを取得することを意味します。したがって、44kHzで10秒間のオーディオサンプリングがある場合、次のような数値の配列が期待されます。 44000 88000 123000 190334 ... これは、たとえば、スピーチが1秒で始まり、2秒で終わることなどを示します。 私が探していないのは、話し言葉からテキストを書き出す音声認識です。残念ながら、これは「音声検出」をグーグルで検索したときによく見られるものです。 ライブラリがC、C ++、またはObjective-Cで作成されていれば、iPhone用のアプリを作成しているので素晴らしいことです。 ありがとう!
18 audio  speech 

2
単純なFFT振幅スペクトルの代わりにPSDを計算する必要があるのはいつですか?
44.1 kHzでサンプリングされた32秒の音声信号があります。ここで、音声の周波数を示したいと思います。しかし、私はそれを行うための最良の方法が何であるかわからない。フーリエ変換の絶対値を計算することもあれば、パワースペクトル密度を計算することもあります。正しく理解できれば、後者が機能するため、信号を部分に分割し、FFTを部分ごとに実行し、何らかの方法でこれらを合計します。ウィンドウ関数は何らかの形で関与しています。これを少し明確にできますか?DSPは初めてです。

1
携帯電話のリアルタイムオーディオで人間の音声を検出する
Androidアプリの開発を検討しています。機能の一部として、アプリは3〜5秒の音声をランダムにサンプリングし、人間の音声が含まれているかどうかを分類する必要があります。この概念が音声アクティビティ検出と呼ばれていることを理解していますか? これを携帯電話に実装する最良の方法は何でしょうか。エネルギーベースの機能としきい値を使用して基本的なシステムを開発しました。MFCCやフォルマントなどの機能を使用して、ノイズの影響を受けにくいものを見つけたいと思っていますか?私はいくつかの論文を読みましたが、それらのほとんどはデータの収集とモデルのトレーニングを必要とします。リアルタイムで動作するライブラリやフレームワークはありますか?

2
母音のARモデルに使用する入力は何ですか?
母音の2秒の発音を録音しました。信号の最初の0.12秒程度を以下に示します。 これで、この信号を圧縮するための自己回帰(AR)8次モデルを構築しました。(実際には、160個のサンプルまたは一度に0.02秒をモデル化しているだけです。)arMatlabのSystem Identification Toolboxの関数は、「最適な」スペクトルフィットのパラメーターを推定できます。 私の問題は、モデルフィルターへの確率的入力を選択することです。ホワイトノイズより良いものがあると思います。周期性(0.02秒あたり14周期)は、同じ周期のインパルス列が適切だと思います。 もしそうなら、どのように振幅を選択し、どのように周期性を見つけますか?ACFとPSDの推定はかなりうるさいです。私は正しい軌道に乗っていますか?

1
音声と音楽の変化を検出する
音声部分と音楽部分の両方を含むオーディオファイルがたくさんあります(ラジオなど)。たとえば、特定のファイルは次のセクションで構成される場合があります。 music --- speech --- music --- speech --- music --- speech --- music 私の目標は、ファイルが音楽と音声の間でいつ変更されるかを検出し、音声部分だけを残して音楽部分を切り取ることです。ただし、音声と音楽を区別するためにどのような方法を使用するかはわかりません。テンポを検出することを検討していましたが、一部の音楽が非常に遅いか、テンポが変化しています。 (私たちがそれをしている間、私が自分で書く必要がないように、音声と音楽を区別できる既存のソフトウェアライブラリはありますか?)


1
この方程式はどのように平滑化に対応していますか?
データの平滑化について教えてください。これは、ここに投稿された私の以前の質問のフォローアップです。特に、関数を平滑化する方法を彼が言っているJunuxxによるトップの回答は次のとおりです。f(x )f(x)f(x) f』[ t ] = 0.1 f[ t − 1 ] + 0.8 f[ t ] + 0.1 f[ t + 1 ]f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1] f'[t] = 0.1 f[t-1] + 0.8 f[t] + 0.1 f[t+1] ここで、すべてのポイントについて、そのポイントとその2つの隣接ポイントの加重平均を取り、と呼ばれる平滑化バージョンを取得していることがわかります。f[ x ]f[x]f[x]f[ t ]f[t]f[t]f』[ t ]f′[t]f'[t] 音声強調に関する論文では、 y[ i ] = a [ i ] …

1
音声圧縮-LPCでは、線形予測フィルターは一般的なレベルでどのように機能しますか?
こんにちは、私はマルチメディアシステムコースを受講しており、火曜日の試験の準備をしています。一般的なレベルでLPC圧縮について理解しようとしていますが、線形予測フィルター部分で何が起こっているのか問題があります。これはこれまでのところ私の理解です: LPCは、アナログ信号をデジタル化し、セグメントに分割することによって機能します。各セグメントについて、信号の主要な特徴を決定し、これらを可能な限り正確にエンコードしようとします。主な機能は、信号のピッチ(つまり、基本的なフォルマント周波数)、信号のラウドネス、および音声が有声か無声かです。声道励起パラメータと呼ばれるパラメータも決定され、声道モデルで使用されて、音を生成した声道の状態をより適切にモデル化します。このデータはネットワークを介して渡され、受信側でデコードされます。信号のピッチは有声または無声シンセサイザーへの入力として使用され、ラウドネスデータはこの結果の信号の振幅をブーストするために使用されます。 私のノートでは、声道モデルは線形予測フィルターを使用し、n番目のサンプルは、前のpサンプルとシンセサイザーからのエラー項の線形結合であると述べています。 これは、エンコーダーとデコーダーの両方で最後のpサンプルの移動平均を維持することを意味しますか?エンコーダでこの平均信号と実際の信号の差に対応するデータのみを送信するようにするには、 なぜこれらの以前のサンプルの線形結合なのですか?私の理解では、音のラウドネス、周波数、有声/無声の性質を抽出し、実際の信号と予測信号との差ができるだけ小さくなるようにそれらを選択することにより、これらの声道励起パラメータを生成します。確かに、これらの前のサンプルの平均が次のサンプルのより良い指標になるでしょうか? あなたがそれらを指摘することができれば私の理解に穴があればそれは素晴らしいでしょう!前もって感謝します!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.