マルコフ連鎖とHMM


11

マルコフ連鎖は私には理にかなっています。それらを使用して、現実の問題における確率的状態変化をモデル化できます。次に、HMMが登場します。HMMはMCよりも多くの問題をモデル化するのに適していると言われています。ただし、人々が言及する問題は、音声処理など、理解するのがやや複雑です。だから私の質問は、HMMがMCよりも適している「現実的で単純な」問題を説明できますか?理由を説明してください。ありがとう

回答:


19

音声認識は、あなたが思うほど複雑な例ではありません。

最初に、テキスト認識を行うマルコフ連鎖(MC)を作成することを想像してください。プログラムは一連の(エラーなしで完璧な)テキストを読み取り、状態(単語)と状態変化(次の単語)を計算します。あなたはこれを降ろしたように聞こえます。これで、テキストを生成したり、MCの状態と遷移確率を使用して次の単語を予測するテキストを与えたりできます。

次に、MCを音声で使用したいとします。あなたは単にあなたのMCに似ているテキストを人々に読んでもらうだけで、あなたは準備ができていますよね?ええと...彼らが単語を異なる方法で発音することを除いて:書かれたテキストが「ポテト」と書かれている場合、実際には「po-TAY-toh」と「po-TAH-toh」と「pu-TAY」が聞こえます-to」など。またその逆:「ate」と「eight」というテキストは2つの異なる状態を表していますが、(通常)同じ発音です。

アルゴリズムは基になる状態(単語)を認識しなくなり、各単語の発音の確率分布が認識されます。元のMCは発音の後ろに隠れているため、モデルを2層にする必要があります。

したがって、元のトレーニングに使用したテキストを大勢の人に朗読してもらい、各単語の発音の分布を取得して、元のモデルと発音モデルを組み合わせると、隠れマルコフモデル( HMM)。

実世界は騒々しい傾向があるので、ほとんどの実世界の問題はこのようなものになります。実際にはどのような状態にあるかはわかりません。代わりに、各状態についてさまざまなインジケーターが表示されます。異なる状態( "ate"と "eight")で同じインジケーターが表示される場合と、同じ状態で異なるインジケーターが表示される場合があります。 (「pu-TAY-toe」および「pah-tah-TOE」)。したがって、HMMは実際の問題により適しています。

[2つの注意事項:1)実際の音声認識は単語レベルではなく音素レベルで機能します。2)HMMは音声認識の丘の王様だったと思いますが、最近、ディープニューラルネットワークによって抑制されています。]


6

非常に基本的に、HMMはマルコフモデルであり、その状態は完全に観測可能ではなく、いくつかのノイズの多い観測を介して間接的にのみ観測されます。マルコフモデル部分は、状態に一時的な依存関係を課す簡単な方法です。同様に、HMMが役立つ問題は、状態がマルコフモデルに従っているが、状態を直接観察しない問題です。

HMMでできることはさまざまです。実行できる便利なことの1つは次のとおりです。現在までの一連のノイズの多い観測を考えると、おそらくシステムの現在の状態として最も可能性の高いものを知りたいと思うでしょう。これを行うには、マルコフ連鎖構造と観測値を適切に組み合わせて、状態を推測します。同様に、これを拡張して、観測のシーケンスから状態のシーケンス全体を推測できます(これは標準です)。

科学と工学では、このモデルは常に使用されています。たとえば、cのような単純な動物のビデオを録画しているとします。エレガンス(ワーム)、それは少数の離散的な行動状態のみを持っています。ビデオから、各フレームに動物の行動状態のラベルを付ける必要があります。単一のフレームから、ラベリングアルゴリズムにはいくつかのエラー/ノイズがあります。ただし、マルコフチェーンでモデル化できる時間依存性もあります... 1つのフレームで動物が1つの状態にあった場合、次のフレームで同じ状態になる可能性があります(一部の状態では遷移のみが許可されます)他の特定の州へ)。基本的に、ノイズの多い単一フレームの観測と(HMMによる)遷移の構造を組み合わせることで、状態推定の平滑化された、より適切な制約のあるシーケンスを取得できます。


2

HMMは混合モデルです。ガウスモデルの混合のように。マルコフ連鎖に加えて使用する理由は、データのパターンを取得するのがより複雑だからです。

単一のガウスを使用して競合変数をモデル化する場合や、ガウスの混合を使用して連続変数をモデル化する場合と同様です。

このアイデアをデモするために連続変数を使用します。このデータがあるとします。

ここに画像の説明を入力してください

2ガウスおよび異なる比率でモデル化することをお勧めします。これは、離散的なケースでは「同等」です。2つの非表示状態を持つHMMを作成します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.