隠れマルコフモデルの「ベクトル」とはどういう意味ですか?


8

音声認識で隠しマルコフモデル(HMM)が使用されていることを知っており、ある程度理解しています。しかし、私が知らないのは、入力(音声)が後でHMMで使用されるベクトルに「変換」される方法です。

サウンド入力からベクトルをどのように取得しますか?このベクトルは人間が読めるのですか?


9
なぜ彼は反対票を投じられたのかOPを説明できますか?そうすれば、彼は自分の質問を編集して、おそらくより適切なものにできます
Ivo Flipse

2
私が理解しているように、数学者は「ベクトル」という用語を、通常の人々が「数値の文字列」と呼ぶものに使用します。彼らは...次元の無限の数を持っている「ヒルベルト空間」内の特定のポイントを指す矢印として、あなたのMP3ファイルを参照してください
endolith

あなたはMFCCについて質問していると思います。これは、MFCCのこのWikiリンクに明確に記載されています。en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient
Rajesh Dachiraju

よかったよ、よだ!元の投稿にはいくつかの欠点がありましたが、現在のフォームは反対票または賛成票に値しないと思います。
ケビンフェルメール

@rajesh:これを答えに入れてみませんか...これまでのところ良いものはありません
Peer Stritzinger

回答:


8

HTK(またはその他のツール)を使用して音声認識を実行する方法は、脳で音声認識を実行する方法と似ています。あなたは言葉を聞いたとき、あなたは即座にそれを構成するのにそれを打破電話して、比較の携帯電話を内部の精神的な「モデル」と電話。これらの「モデル」は、何年にもわたって音声を聞いて構築されており、「素敵なビーチを壊す方法」や「音声を認識する方法」など、似たような文章を区別することができます。HTKまたはその他のモデルベースのスキームによる音声認識は、同様の方法で機能します。ここでは、いくつかの手順で、その方法を説明します。

  1. 入力音声信号を取得して、特徴ベクトル表現に変換します。
  2. 多数の文を取り、それぞれについてステップ1を実行します。
  3. 手順2の特徴ベクトルを使用して、文の各電話/単語の統計モデルを構築します(電話や単語の数は限られているため、それらの言い方は無制限です。したがって、モデリングによって未知数を減らします。 )。
  4. 新しい単語が入ったら、それを電話に分解し、既知の各モデルと比較します。最も確率の高い一連の電話が勝ちます!

上記のすべての手順は、音声認識タスクを正常に完了するために重要です。サウンドをその特徴ベクトルに分解することで、モデル空間に取り込み、他の表現よりもモデルの作成に適した表現を提供します(たとえば、時間振幅表現)。そのような表現のほとんどは、周波数または時間-周波数領域にあります。そのような最も一般的な表現の1つは、MFCC(メル周波数ケプストラム係数)です。。ある意味で、この手法は一連のフィルターを使用して人間の聴覚応答を模倣します。入力信号は、中心周波数の対数間隔を持つフィルターのこのセットで分解されます。次に、1つの文(たとえば)のMFCC係数を使用して、その文を構成する各電話をモデル化します。例として、

文:こんにちは。音声記述:hh aa ey
MFCC係数をHTKに入力すると、文の一部のMFCC係数がhhに関連付けられ、もう1つはaaに関連付けられます。これが何度も繰り返されると、電話のモデルが形成され始めます。

HTKは、ツールHCopyを使用して入力文をその特徴ベクトル表現に変換します。MFCCにも多くの「フレーバー」があります(E_D_AまたはE_D_A_Z表現)。HCopyhtkbook内のドキュメントを読むことをお勧めします。

MFCC係数は.mfc、HTKによって拡張子が付いたファイルに書き込まれます。係数はバイナリで記述されているため(おそらく)、テキストエディターのいずれかを使用してそのファイルを読み取ることはできません。Cただし、ファイルを読み取ってみることができます。

HTH。


反対票を説明する気?
スリラム

2
複数の理由により、私は反対票を投じました。正確さに欠ける。それは非常に不正確であり、真実の半分に満ちています。ツールとガジェット、およびそれらを使用する方法の不必要な言及。これは質問には関係ありません。まず第一に、質問自体はうまく構成されておらず、あなたの答えはそれについて言及していないようです。さらに、MFCCに関する素晴らしいWikipediaの記事があります。この記事では、質問に対する私のコメントを述べています。
Rajesh Dachiraju、2011

@Rajesh:フィードバックをありがとう!あなたが注意深く見れば、私はOPにウィキペディアのMFCCページへのリンクを提供しました。この回答が不正確であると思われる場合は、不正確な部分を強調してください。単なる反対投票は建設的な批判にはならないのでedit、答えのボタンを自由に使用することをお勧めします。さらに良いことに、あなた自身の答えを提供してください。そして、はい、質問自体が不正確な場合、回答も正確性に欠けます。それはコメントセクション自体で議論されました。
スリラム

1
@ピア:いいえ。電話は音素ではなく音声認識タスクでモデル化されています(IMHO)。
スリラム

2
ええと

0

すべての波は他の多くの波の追加に分解できます。フーリエ変換を使用すると、波をその周波数成分に分析できます。これらの周波数成分の振幅は、ベクトルとして使用できます。ここだこれを行い、スフィンクスクラスのドキュメントここにあるフーリエ変換の良い視覚的な説明は変換が。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.