2
問題がマルコフ特性を満たさないように思われる場合、HMMが音声認識に適しているのはなぜですか
私はHMMとそのアプリケーションについて学び、それらの使用法を理解しようとしています。私の知識は少しむらがあるので、私がしている誤った仮定を修正してください。私が不思議に思っている具体的な例は、音声検出にHMMを使用する場合です。これは、文献では一般的な例です。 基本的な方法は、着信音(処理後)を観測値として扱うことであり、実際に話されている単語はプロセスの隠れた状態です。ここにある隠し変数が独立していないことは明らかなようですが、Markovプロパティをどのように満たすかはわかりません。N番目の単語の確率は、N-1単語だけでなく、その前の多くの先行単語にも依存していると思います。 HMMは音声検出の問題を正しくモデリングするのに非常に優れているため、これは単純化の前提として単に無視されますか、それともプロセスの状態と非表示の変数が何であるかを明確に理解していませんか?同じ問題は、HMMが非常に普及している多くのアプリケーションやPOSタグ付けなどに当てはまるようです。