そのテーマについては、スピーチでのHMMの導入を実際に担当したJames Bakerなどの非常に優れた論文を読むことをお勧めします。
音声認識の歴史的展望
http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract
マルコフモデルを使用して言語の知識を表現することは物議を醸しました。言語学者は、自然言語は文脈自由文法でさえ表現できず、有限状態文法では表現できないことを知っていました。同様に、人工知能の専門家は、マルコフプロセスと同じくらい単純なモデルが、ニューウェルレポートで推奨されているより高いレベルの知識源を表すのに役立つであろうことをさらに疑っていました。ただし、言語自体がマルコフ過程であると仮定することと、隠れマルコフ過程の確率関数としてのモデリング言語との間には、根本的な違いがあります。後者のモデルは、言語についての仮定を行わない近似方法であり、非表示のプロセスで何を表すかを選択する際に設計者に処方を提供します。マルコフ過程の決定的な特性は、現在の状態を考えると、将来のイベントの確率は、プロセスの過去の履歴に関する追加情報とは無関係です。このプロパティは、観測されたプロセスの過去の履歴に関する情報(観測された単語やサブワード単位など)がある場合、設計者はその情報を非表示のプロセスで異なる状態でエンコードする必要があることを意味します。ニューウェル階層の各レベルは、適切な近似レベルの隠れマルコフプロセスの確率関数として表すことができることがわかりました。今日の最先端の言語モデリングでは、ほとんどのシステムが、基本的なカウントまたはEMスタイルの手法でトレーニングされた統計Nグラム言語モデルとバリアントをまだ使用しています。これらのモデルは、非常に強力で弾力性があることが証明されています。しかしながら、N-gramは、現実的な人間の言語の非常に単純なモデルです。音響モデリングの品質を大幅に向上させるためのディープラーニングと同様の方法で、リカレントニューラルネットワークもN-gram言語モデルを大幅に改善しました。ほとんどの実際の音声アプリケーションのアプリケーションドメインに一致する大量のテキストコーパスに勝るものはありません。
全体として、マルコフモデルは、伝送に関する非常に緩やかな仮定でブラックボックスチャネルをデコードするためのかなり一般的なモデルであるため、音声認識に完全に適合しますが、問題は実際に何を状態としてエンコードするかです。状態は、私たちが現在想定しているものよりも複雑なオブジェクトである必要があることは明らかです(前の単語はほんの少しです)。そのような構造の本質を明らかにすることは、現在進行中の研究です。