既存の多入力最大エントロピー分類器から最大エントロピーマルコフモデルを作成する


9

私は最大エントロピーマルコフモデル(MEMM)の概念に興味をそそられ、品詞(POS)タガーにそれを使用することを考えています。現在、私は従来の最大エントロピー(ME)分類器を使用して、個々の単語にタグを付けています。これは、前の2つのタグを含む多くの機能を使用します。

MEMMは、ビタビアルゴリズムを使用してマルコフチェーンを通る最適なパスを見つけます(つまり、各単語の個々の最適値ではなく、文のタグの完全な最適セットを見つけます)。それについて読むと、これは素晴らしい優雅さとシンプルさを持っているようです。ただし、各ステージは前のステージの「結果」にのみ依存しています(つまり、マルコフチェーンに従って)。

ただし、私のMEモデルでは、前の2つの段階(つまり、前の2つの単語のタグ)を使用しています。私には2つの可能なアプローチがあるようです:

  • 従来のビタビ実装と同様に、1つ(前の)ステージに従って保存されたパスのセットを使用します。私のME分類器は、これとその前の「凍結」ステージ(検討中のパスに凍結)を使用して伝達関数を生成します。

  • または、2つのステージを追跡するアルゴリズムを記述します。これはより複雑であり、各伝達関数(つまり、MEモデルからの)は1つのステージではなく、前の2つのステージに依存するため、真のマルコフモデルではなくなります。

2つ目はより複雑になりますが、2つ目はより正確になります。

私は、文献検索でこれの例をまだ見つけていません。試されましたか?2段階のアプローチにより、全体的な精度が向上しましたか?

回答:


4

(これは本当に私が直面している本当の質問であり、ML StackExchangeサイトの公開はかなり完璧なタイミングでした。数日間の読書とオンライン調査を行い、実装を開始しようとしていました。これが私の結果です。厳密なものではないので、自分の質問に答えると思います。有用な情報を入力したり、似たようなことを試みたり、参考になる参考文献がある場合は、この質問を開いたままにしておきます)。

過去数日間、私はこれをコード化しました。コードは非常に効率的ではありません-多くのコレクションの作成とコピーですが、演習の目的は、それが機能するかどうか、およびどれだけ機能するかを確認することでした。

データをランダムに2つのリストに分割しています。トレーニングデータとテストデータです。私は従来の最大エントロピーPOSタガーを介してテストデータを実行しています。そして私の新しいMEMMタガー。したがって、同じテストデータが表示され、直接比較できます。選択されたデータのランダム性により、テスト間で多少の変動が見られます(通常は約0.2〜0.4%)。

最初のテストでは、シングルステージ(つまり、真のマルコフチェーン)を持つMEMMタガーを使用します。これは一貫して、単純なMEタガーよりも約0.1〜0.25%優れています。

次に、2ステージアプローチを試してみました。ただし、結果はさらに限定的でした。多くの場合、結果は同じですが、時々わずかに劣っていますが、大部分の場合、わずかに優れていました(そのため、+ /-0.05%)。

MEMMタガーが遅い。さて、私は最適化を適用していませんが、これは各ステップ間で転送されるパスの数であるため、1ステージ(真のマルコフチェーン)はN倍遅くなります(N =ラベルの数)。2ステージの実装は、N * Nが遅くなります(転送されるパスの数が多いため)。最適化によって状況は改善される可能性がありますが、これはおそらくほとんどの実用的なアプリケーションには遅すぎます。

私が試みていることの1つは、パスに低い確率制限を適用することです。つまり。各反復中にビタビパスが枝刈りされ、特定の確率を下回るすべてのパス(現在、Log(合計パスP)<-20.0)が枝刈られます。これはかなり高速に実行されますが、それが価値があるかどうかについての問題が残っています。おそらくそうではないと思います。

なぜ改善が見られないのですか?これは主にPOSタグの動作と最大エントロピーモデルによるものだと思います。モデルは前の2つのタグに基づいて機能を取りますが、直前のタグはその前のタグよりもはるかに重要です。直感的にこれは英語にとって意味があります(たとえば、形容詞の後に名詞または別の形容詞が続くのが普通ですが、これは形容詞の前の内容に実際には依存しません)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.