問題がマルコフ特性を満たさないように思われる場合、HMMが音声認識に適しているのはなぜですか


7

私はHMMとそのアプリケーションについて学び、それらの使用法を理解しようとしています。私の知識は少しむらがあるので、私がしている誤った仮定を修正してください。私が不思議に思っている具体的な例は、音声検出にHMMを使用する場合です。これは、文献では一般的な例です。

基本的な方法は、着信音(処理後)を観測値として扱うことであり、実際に話されている単語はプロセスの隠れた状態です。ここにある隠し変数が独立していないことは明らかなようですが、Markovプロパティをどのように満たすかはわかりません。N番目の単語の確率は、N-1単語だけでなく、その前の多くの先行単語にも依存していると思います。

HMMは音声検出の問題を正しくモデリングするのに非常に優れているため、これは単純化の前提として単に無視されますか、それともプロセスの状態と非表示の変数が何であるかを明確に理解していませんか?同じ問題は、HMMが非常に普及している多くのアプリケーションやPOSタグ付けなどに当てはまるようです。


1
音声認識では、HMMは通常、これらのモデルでは単語ではなく音素をモデル化するために使用され、音素では、HMMモデルは経験的にかなり適切です。質問がより多くの票を獲得した場合、多分参照を掘り下げるでしょう
vzn 2015年

回答:


8

そのテーマについては、スピーチでのHMMの導入を実際に担当したJames Bakerなどの非常に優れた論文を読むことをお勧めします。

音声認識の歴史的展望 http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract

マルコフモデルを使用して言語の知識を表現することは物議を醸しました。言語学者は、自然言語は文脈自由文法でさえ表現できず、有限状態文法では表現できないことを知っていました。同様に、人工知能の専門家は、マルコフプロセスと同じくらい単純なモデルが、ニューウェルレポートで推奨されているより高いレベルの知識源を表すのに役立つであろうことをさらに疑っていました。ただし、言語自体がマルコフ過程であると仮定することと、隠れマルコフ過程の確率関数としてのモデリング言語との間には、根本的な違いがあります。後者のモデルは、言語についての仮定を行わない近似方法であり、非表示のプロセスで何を表すかを選択する際に設計者に処方を提供します。マルコフ過程の決定的な特性は、現在の状態を考えると、将来のイベントの確率は、プロセスの過去の履歴に関する追加情報とは無関係です。このプロパティは、観測されたプロセスの過去の履歴に関する情報(観測された単語やサブワード単位など)がある場合、設計者はその情報を非表示のプロセスで異なる状態でエンコードする必要があることを意味します。ニューウェル階層の各レベルは、適切な近似レベルの隠れマルコフプロセスの確率関数として表すことができることがわかりました。今日の最先端の言語モデリングでは、ほとんどのシステムが、基本的なカウントまたはEMスタイルの手法でトレーニングされた統計Nグラム言語モデルとバリアントをまだ使用しています。これらのモデルは、非常に強力で弾力性があることが証明されています。しかしながら、N-gramは、現実的な人間の言語の非常に単純なモデルです。音響モデリングの品質を大幅に向上させるためのディープラーニングと同様の方法で、リカレントニューラルネットワークもN-gram言語モデルを大幅に改善しました。ほとんどの実際の音声アプリケーションのアプリケーションドメインに一致する大量のテキストコーパスに勝るものはありません。

全体として、マルコフモデルは、伝送に関する非常に緩やかな仮定でブラックボックスチャネルをデコードするためのかなり一般的なモデルであるため、音声認識に完全に適合しますが、問題は実際に何を状態としてエンコードするかです。状態は、私たちが現在想定しているものよりも複雑なオブジェクトである必要があることは明らかです(前の単語はほんの少しです)。そのような構造の本質を明らかにすることは、現在進行中の研究です。


1
ありがとう!私に起こった可能性の1つは、以前の状態に関する情報が何らかの形で現在の状態に含まれていたことでした。
2015年

3

隠しマルコフモデルは、1980年代後半から音声認識用の単語単位で音素単位をモデル化するために使用されました。


ありがとう!私はウィキペディアのセクションの最初の段落を完全に見逃してしまいました。リンクをまとめる努力にも感謝します。
2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.