既存の多入力最大エントロピー分類器から最大エントロピーマルコフモデルを作成する

私は最大エントロピーマルコフモデル（MEMM）の概念に興味をそそられ、品詞（POS）タガーにそれを使用することを考えています。現在、私は従来の最大エントロピー（ME）分類器を使用して、個々の単語にタグを付けています。これは、前の2つのタグを含む多くの機能を使用します。

MEMMは、ビタビアルゴリズムを使用してマルコフチェーンを通る最適なパスを見つけます（つまり、各単語の個々の最適値ではなく、文のタグの完全な最適セットを見つけます）。それについて読むと、これは素晴らしい優雅さとシンプルさを持っているようです。ただし、各ステージは前のステージの「結果」にのみ依存しています（つまり、マルコフチェーンに従って）。

ただし、私のMEモデルでは、前の2つの段階（つまり、前の2つの単語のタグ）を使用しています。私には2つの可能なアプローチがあるようです：

従来のビタビ実装と同様に、1つ（前の）ステージに従って保存されたパスのセットを使用します。私のME分類器は、これとその前の「凍結」ステージ（検討中のパスに凍結）を使用して伝達関数を生成します。
または、2つのステージを追跡するアルゴリズムを記述します。これはより複雑であり、各伝達関数（つまり、MEモデルからの）は1つのステージではなく、前の2つのステージに依存するため、真のマルコフモデルではなくなります。

2つ目はより複雑になりますが、2つ目はより正確になります。

私は、文献検索でこれの例をまだ見つけていません。試されましたか？2段階のアプローチにより、全体的な精度が向上しましたか？

— Winwaed
ソース

（これは本当に私が直面している本当の質問であり、ML StackExchangeサイトの公開はかなり完璧なタイミングでした。数日間の読書とオンライン調査を行い、実装を開始しようとしていました。これが私の結果です。厳密なものではないので、自分の質問に答えると思います。有用な情報を入力したり、似たようなことを試みたり、参考になる参考文献がある場合は、この質問を開いたままにしておきます）。

過去数日間、私はこれをコード化しました。コードは非常に効率的ではありません-多くのコレクションの作成とコピーですが、演習の目的は、それが機能するかどうか、およびどれだけ機能するかを確認することでした。

データをランダムに2つのリストに分割しています。トレーニングデータとテストデータです。私は従来の最大エントロピーPOSタガーを介してテストデータを実行しています。そして私の新しいMEMMタガー。したがって、同じテストデータが表示され、直接比較できます。選択されたデータのランダム性により、テスト間で多少の変動が見られます（通常は約0.2〜0.4％）。

最初のテストでは、シングルステージ（つまり、真のマルコフチェーン）を持つMEMMタガーを使用します。これは一貫して、単純なMEタガーよりも約0.1〜0.25％優れています。

次に、2ステージアプローチを試してみました。ただし、結果はさらに限定的でした。多くの場合、結果は同じですが、時々わずかに劣っていますが、大部分の場合、わずかに優れていました（そのため、+ /-0.05％）。

MEMMタガーが遅い。さて、私は最適化を適用していませんが、これは各ステップ間で転送されるパスの数であるため、1ステージ（真のマルコフチェーン）はN倍遅くなります（N =ラベルの数）。2ステージの実装は、N * Nが遅くなります（転送されるパスの数が多いため）。最適化によって状況は改善される可能性がありますが、これはおそらくほとんどの実用的なアプリケーションには遅すぎます。

私が試みていることの1つは、パスに低い確率制限を適用することです。つまり。各反復中にビタビパスが枝刈りされ、特定の確率を下回るすべてのパス（現在、Log（合計パスP）<-20.0）が枝刈られます。これはかなり高速に実行されますが、それが価値があるかどうかについての問題が残っています。おそらくそうではないと思います。

なぜ改善が見られないのですか？これは主にPOSタグの動作と最大エントロピーモデルによるものだと思います。モデルは前の2つのタグに基づいて機能を取りますが、直前のタグはその前のタグよりもはるかに重要です。直感的にこれは英語にとって意味があります（たとえば、形容詞の後に名詞または別の形容詞が続くのが普通ですが、これは形容詞の前の内容に実際には依存しません）。

— Winwaed
ソース