隠れマルコフモデルのトレーニング、複数のトレーニングインスタンス


18

このチュートリアルに従って、個別のHMMを実装しました http://cs229.stanford.edu/section/cs229-hmm.pdf

このチュートリアルと他のチュートリアルでは、観測シーケンスを指定したHMMのトレーニングについて常に説明しています。

複数のトレーニングシーケンスがある場合はどうなりますか?モデルを順番にトレーニングして、それらを順番に実行する必要がありますか?

別のオプションは、シーケンスを1つに連結してトレーニングすることですが、1つのシーケンスの終了から次のシーケンスの開始までの状態遷移がありますが、これは実在しません。


このペーパーを参照してくださいpdfs.semanticscholar.org/4000/...を彼らは非INDEP観測シナリオにアイデアを拡張するにもかかわらず、INDEPが想定される単純なケースを理解することは私にはかなり便利だった
マルク・Torrellas

hmmlearnHMM の実装では、すでに複数のシーケンスを使用したHMMのトレーニングがサポートされています。複数のシーケンスでトレーニングHMMを
Wenmin Wu

回答:


16

トレーニングの各反復を異なるシーケンスで連結したり実行したりすることは正しいことではありません。正しいアプローチにはいくつかの説明が必要です。

通常、EMアルゴリズムを使用してHMMをトレーニングします。。これはいくつかの反復で構成されます。各反復には、1つの「推定」ステップと1つの「最大化」ステップがあります。「最大化」ステップでは、各観測ベクトルxをモデルの状態sに合わせて、尤度測定値が最大化されるようにします。「推定」ステップでは、各状態sについて、(a)sにアライメントされたxベクトルの統計モデルのパラメーターと(b)状態遷移確率を推定します。次の反復では、更新された統計モデルなどを使用して最大化ステップが再び実行されます。プロセスは、設定された回数繰り返されるか、尤度尺度が大幅に上昇しなくなります(つまり、モデルが安定したソリューションに収束します)。最後に、(少なくとも音声認識では)HMMには通常、指定された「開始」があります

したがって、複数のトレーニングシーケンスがある場合は、推定ステップで各シーケンスを実行して、初期観測ベクトルが初期状態と一致するようにする必要があります。そのようにして、その初期状態の統計は、すべての観測シーケンスの最初の観測から収集され、一般に、観測ベクトルは各シーケンス全体で最も可能性の高い状態に合わせられます。すべてのシーケンスがトレーニングに提供された後にのみ、最大化ステップ(および将来の反復)実行します。次の反復では、まったく同じことを行います。

各観測シーケンスの開始を初期状態に揃えることにより、シーケンスの連結と、1つのシーケンスの終了と次のシーケンスの開始との間の遷移を誤ってモデリングする問題を回避できます。また、各反復ですべてのシーケンスを使用することで、反復ごとに異なるシーケンスを提供することを避けます。これはレスポンダーが指摘したように、収束を保証しません。


この方法では、各トレーニングシーケンスが同じ長さである必要がありますか?
ネイト

2
いいえ、そうではありません。通常、自己ループ(連続して複数回使用される同じ状態)を許可し、移行先の複数の状態を許可するようにHMMを設計します。これらの機能により、HMMは異なる長さのシーケンスをスコアリングできます。
JeffM 14

4

Lawrence Rabinerは、IEEE 77のこのチュートリアルで数学的に根拠のあるアプローチを説明しています。このチュートリアルは、Rabiner and Juang 著の「音声認識の基礎」の第6章でもあります。

RIA Davis et。al。このペーパーでいくつかの追加提案を提供します。

私は数学を徹底的に試したことはありませんが、デイビスのアプローチは数学的な基礎を欠いているように見えますが、私にとってはラビナーのアプローチが最も有望だと思われます。


2

数学に従う場合、追加のトレーニング例を追加することは、尤度の計算方法を再計算することを意味します。ディメンションを合計する代わりに、トレーニングの例も合計します。

あるモデルを次から次へとトレーニングする場合、EMがすべてのトレーニング例でカバーするという保証はなく、最終的に悪い推定値になります。

カルマンフィルター(ガウス確率を使用するHMM)に対してこれを行う論文は、より多くの例をサポートできるようにコードを変更する方法を紹介します。

http://ntp-0.cs.ucl.ac.uk/staff/S.Prince/4C75/WellingKalmanFilter.pdf

彼はHMMの講義も行っていますが、論理は非常に簡単です。


1
あなたが何を言っているのか本当に見ませんでした。私を正しい方向に向けることができますか?ありがとう。
ラン14

0

これは、Bittenus(上記)が参照するRIA Davisの論文に対するコメントです。私はBittenusに同意する必要があります。論文で提案された技術の裏には数学的な裏付けはあまりありません。これは経験的な比較です。

この論文では、HMMが制限されたトポロジ(フィードフォワード)である場合のみを考慮しています。(私の場合、標準的なトポロジを使用しており、Baum-Welchでトレーニングされたすべてのモデルの非加重平均を実装することで、最も一貫した結果を見つけました。

別のタイプのモデル平均化トレーニングは、RIA Davisによって雑誌記事で詳しく説明されており、Baum-Welchの代わりにVitterbi Training を使用します。ただし、このホワイトペーパーでは、同じ制限されたフィードフォワードトポロジを持つHMMのみを検討します。(私はこの方法を探求する予定であり、私の投稿でこの投稿を更新します。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.