信号処理 mfcc

2

ほとんどのオーディオ処理タスクで、最も使用される変換の1つはMFCC（メル周波数ケプストラム係数）です。私はほとんどMFCCの背後にある数学を知っています。フィルターバンクステップとメル周波数スケーリングの両方を理解しています。取得できないのはDCT（離散コサイン変換）ステップです。このステップではどのような情報を取得できますか？このステップの優れた視覚的表現は何ですか？

20 filters mfcc cepstral-analysis

1

MFCCの計算/理解を支援：メル周波数ケプストラム係数

私はオンラインで細かく読んでいますが、すべてをつなげることはできません。私はこれに関する十分な前提条件である信号/ DSPスタッフの背景知識を持っています。私は最終的にこのアルゴリズムをJavaでコーディングすることに興味がありますが、まだ完全には理解していません。だから私はここにいるのです（数学としてカウントされますよね？）。これが私の知識のギャップと一緒にどのように機能するかを示しています。 .wavファイルなどの音声スピーチサンプルから始めて、配列に読み込むことができます。この配列呼び出す、Nの範囲0 、1 、... 、N - 1（したがって、N個のサンプル）。値は、私が推測するオーディオの強度-振幅に対応しています。x [ n ]バツ[n]x[n]nnn0 、1 、... 、N− 10、1、…、N−10, 1, \ldots ,N-1NNN 音声信号を10ミリ秒程度の明確な「フレーム」に分割し、音声信号が「静止」していると想定します。これは量子化の形式です。したがって、サンプルレートが44.1KHzの場合、10msは441サンプル、つまり値に等しくなります。x [ n ]バツ[n]x[n] フーリエ変換（計算のためにFFT）を行います。これは、信号全体または各個別のフレームで実行されますか？一般にフーリエ変換は信号のすべての要素を見るので、違いがあると思うので、F（x [ n ] ）≠ F（x 1 [ n ] ）はFと結合（x 2 [ n ] ）は… Fと結合（x N [ n ] ）ここでxx [ n ]バツ[n]x[n]F（x [ n …

17 discrete-signals signal-analysis mfcc

1

ケプストラム平均の正規化

誰でもケプストラム平均正規化、畳み込みの等価性がこれにどのように影響するかについて説明できますか？MFCCベースの話者認識でCMNを実行する必要がありますか？畳み込みの性質がMFCCの基本的な必要性である理由私はこの信号処理に非常に新しいです。助けてください

15 mfcc

4

音分類のための特徴抽出

サウンドファイルから機能を抽出し、サウンドを特定のカテゴリ（犬の樹皮、車両エンジンなど）に属するものとして分類しようとしています。次のことについて明確にしたい： 1）これはまったく実行可能ですか？音声を認識し、さまざまな種類の犬の樹皮を区別できるプログラムがあります。しかし、音のサンプルを受け取り、それがどんな音なのかを言うことができるプログラムを持つことは可能ですか？（参照する多くのサウンドサンプルを含むデータベースがあると仮定します）。入力音のサンプルは、少しノイズが多い場合があります（マイク入力）。 2）最初のステップは音声特徴抽出だと思います。この記事では、MFCCを抽出し、それらを機械学習アルゴリズムに供給することを提案します。MFCCで十分ですか？一般的に音の分類に使用される他の機能はありますか？お時間をいただきありがとうございます。

15 audio mfcc machine-learning classification sound-recognition

3

これはMFCC計算のDCTステップの正しい解釈ですか？

これはここでの議論の続きです。私はそこでコメントしますが、50人の担当者がいないので、新しい質問をしています。 MFCC計算プロセスのDCTステップを理解する方法は次のとおりです。その背後にある理論的根拠は、フィルターのオーバーラップにより、（フィルターバンクからの）対数スペクトルの大きさの相関を分離することです。本質的に、DCTはこれらの対数スペクトルの大きさによって与えられるスペクトル表現を平滑化します。下の画像の青い線は、対数スペクトルの大きさのベクトルで表されるスペクトルを表し、赤い線は、DCT変換された後のベクトルであると言って間違いありませんか？

9 mfcc dct

1

類似性の評価のための音声比較アルゴリズム

私は2つの音声サンプルを比較し、類似点でそれらを評価しようとしています。誰かがフレーズを繰り返して、それらの2つのオーディオファイルを比較しようとしていると考えてください。私はMFCC（http://en.wikipedia.org/wiki/Mel-frequency_cepstrum）アルゴリズムを実装することから始めました。両方のオーディオサンプルのMFCCを計算します。これにより、14程度のMFCC係数を持つ約500フレームのオーディオ（各10ミリ秒、前のものと30％オーバーラップ）が得られます。つまり、各オーディオ信号に対して500x14のマトリックスです。次に、単純に行列を差分する単純なアプローチを実行します。これは非常に有望な結果を与えません。完全に異なるオーディオサンプル（異なるフレーズが話されている）を比較する時間の半分は、同じフレーズを繰り返そうとするオーディオを比較するよりも差が少なくなります。これは明らかに逆であり、良いスコアリングアルゴリズムを私に与えることはできません。これをどのように改善できますか？MFCCは音声処理の本当に重要な部分だと思いましたが、明らかにそれをさらに活用する必要があります。

8 audio mfcc

1

一連のMFCCベクトルの正しいグラフィック解釈は何ですか？

私は音声認識、特に特徴抽出のためのMFCCの使用について研究しています。オンラインで見つけたすべての例は、特定の発話から抽出された一連のMFCCを次のようにグラフ化する傾向があります（私が作成しているソフトウェアから私が生成したグラフ）。上のグラフからわかるように、 x軸は、（この例では12に1から）MFC係数のそれぞれのために使用されます y軸は、（この例ではおよそ10mlの液体フッ化水素を圧入-12から42の範囲）係数の値のために使用されますあなたは持っているフレームなど多くの行として、またはあなたが抽出されている特徴ベクトル（この例では140）。ここで見ているのは、すべての特徴ベクトルを一度に重ね合わせたため、時間情報が失われているためです。この表現がどのように役立つかを理解するのに苦労しています。私の考えでは、抽出したベクトルを次のように表現します（ここでも、私が生成したグラフです）。上のグラフでは： x軸はフレームまたはベクトル数（1 140）に y軸（-12から42およそ10mlの液体フッ化水素を圧入し、再び）係数値でありますあなたは持っている機能ごとに1行（12）。私にとって、この表現は、特定の各機能の時間的変化を見ることができ、音声アルゴリズムに比較アルゴリズムを適用する方法により強い影響を与えるはずなので、より役立つはずです。おそらく、2つの表現は等しく有効であり、さまざまな目的に役立ちます。時間領域または周波数領域で信号を調べる必要がある場合と同様ですが、音声認識の場合、各個人の時間の変化を予測します。機能は、各機能の値の密度よりも意味のあるものにしてください（おそらく私は完全に間違っています：P）。したがって、実際には2つの質問があります。なぜ最初の表現が広く使われているように見え、2番目の表現ではないのですか？たとえば、動的タイムワーピング-DTWを使用して、このトピックに関連する、抽出されたMFCCの2つのセットを比較する場合、特徴ベクトル（つまり、12特徴の140ベクトル）またはフレーム（140フレームの12ベクトル）を比較しますか？）？（つまり、MxNまたはNxM？）ありがとう！

7 speech-recognition mfcc visualization feature-extraction

1

MFCC特徴抽出

オーディオのブロックがあり、FFTを実行しました。今私がしたいのは、このFFTをMFCCのセットに変換することですが、三角形のフィルターのセットに基づいてFFTサンプルに重みを付けることで何かをする必要があることはわかっていますが、実際にこれが何であるかわかりません。誰かがそれについていくつかの詳細に入ることができますか？Matlabの例を紹介する場合は、各ステップについて十分に説明してください。MATLABではかなりの数のコーナーをカットできるため、iPhoneにMFCC抽出を実装しようとしています。

7 fft mfcc

タグ付けされた質問 「mfcc」

タグ付けされた質問「mfcc」