音声認識で隠しマルコフモデル(HMM)が使用されていることを知っており、ある程度理解しています。しかし、私が知らないのは、入力(音声)が後でHMMで使用されるベクトルに「変換」される方法です。
サウンド入力からベクトルをどのように取得しますか?このベクトルは人間が読めるのですか?
音声認識で隠しマルコフモデル(HMM)が使用されていることを知っており、ある程度理解しています。しかし、私が知らないのは、入力(音声)が後でHMMで使用されるベクトルに「変換」される方法です。
サウンド入力からベクトルをどのように取得しますか?このベクトルは人間が読めるのですか?
回答:
HTK(またはその他のツール)を使用して音声認識を実行する方法は、脳で音声認識を実行する方法と似ています。あなたは言葉を聞いたとき、あなたは即座にそれを構成するのにそれを打破電話して、比較の携帯電話を内部の精神的な「モデル」と電話。これらの「モデル」は、何年にもわたって音声を聞いて構築されており、「素敵なビーチを壊す方法」や「音声を認識する方法」など、似たような文章を区別することができます。HTKまたはその他のモデルベースのスキームによる音声認識は、同様の方法で機能します。ここでは、いくつかの手順で、その方法を説明します。
上記のすべての手順は、音声認識タスクを正常に完了するために重要です。サウンドをその特徴ベクトルに分解することで、モデル空間に取り込み、他の表現よりもモデルの作成に適した表現を提供します(たとえば、時間振幅表現)。そのような表現のほとんどは、周波数または時間-周波数領域にあります。そのような最も一般的な表現の1つは、MFCC(メル周波数ケプストラム係数)です。。ある意味で、この手法は一連のフィルターを使用して人間の聴覚応答を模倣します。入力信号は、中心周波数の対数間隔を持つフィルターのこのセットで分解されます。次に、1つの文(たとえば)のMFCC係数を使用して、その文を構成する各電話をモデル化します。例として、
文:こんにちは。音声記述:hh aa ey
MFCC係数をHTKに入力すると、文の一部のMFCC係数がhhに関連付けられ、もう1つはaaに関連付けられます。これが何度も繰り返されると、電話のモデルが形成され始めます。
HTKは、ツールHCopy
を使用して入力文をその特徴ベクトル表現に変換します。MFCCにも多くの「フレーバー」があります(E_D_AまたはE_D_A_Z表現)。HCopy
htkbook内のドキュメントを読むことをお勧めします。
MFCC係数は.mfc
、HTKによって拡張子が付いたファイルに書き込まれます。係数はバイナリで記述されているため(おそらく)、テキストエディターのいずれかを使用してそのファイルを読み取ることはできません。C
ただし、ファイルを読み取ってみることができます。
HTH。
edit
、答えのボタンを自由に使用することをお勧めします。さらに良いことに、あなた自身の答えを提供してください。そして、はい、質問自体が不正確な場合、回答も正確性に欠けます。それはコメントセクション自体で議論されました。