n-gramは何nで逆効果になりますか?


13

自然言語処理を行う場合、コーパスを取得して、nのシーケンスで発生する次の単語の確率を評価できます。nは通常2または3(バイグラムとトライグラム)として選択されます。

特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか?または、(データ構造)ディクショナリから確率を検索するのにかかる時間を考えてみてください。


この他に関連するスレッド次元の呪いについて
アントワーヌ

回答:


2

特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか?

困惑とn-gramサイズのテーブルまたはプロットを探してください。

例:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif

ここに画像の説明を入力してください

http://images.myshared.ru/17/1041315/slide_16.jpg

ここに画像の説明を入力してください

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg

ここに画像の説明を入力してください

複雑さは、言語モデル、n-gramサイズ、およびデータセットによって異なります。いつものように、言語モデルの品質と実行にかかる時間の間にはトレードオフがあります。現在、最適な言語モデルはニューラルネットワークに基づいているため、n-gramサイズの選択はそれほど問題ではありません(ただし、CNNを使用する場合は、他のハイパーパラメーターの中からフィルターサイズを選択する必要があります)。


12

「カウンター生産的」の測定値はarbitrary意的です-例えば。大量の高速メモリを使用すると、より高速に(より合理的に)処理できます。

それを言った後、指数関数的な成長がそれに来て、私自身の観察からそれは3-4マークの周りにあるようです。(特定の研究を見たことがない)。

トライグラムはバイグラムよりも優れていますが、小さいです。4グラムを実装したことはありませんが、改善はずっと少なくなります。おそらく同様の規模の減少です。例えば。トライグラムがバイグラムよりも10%改善した場合、4グラムの合理的な推定値は、トライグラムよりも1%改善される可能性があります。

10000100002100003100004

希釈効果を補うために巨大なコーパスが必要になりますが、Zipfの法則によれば、巨大なコーパスにはさらにユニークな単語が含まれることになります...

これが、多くのバイグラムおよびトライグラムモデル、実装、およびデモを見る理由であると推測します。ただし、完全に機能する4グラムの例はありません。


2
良い要約。次のペーパーのページ48〜53(「長いとりとめのあるシニカルダイアトリート」)で詳細を説明しています(ペーパーには高次のn-gramの結果も含まれています)research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny

2
リンクは無効です。完全なリファレンスとarXivバージョンへのリンク:Joshua T. Goodman(2001)。言語モデリングの進歩:拡張バージョン。Microsoft Research:ワシントン州レドモンド(米国)。テクニカルレポートMSR-TR-2001-72。
scozy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.