n-gramは何nで逆効果になりますか？

13

自然言語処理を行う場合、コーパスを取得して、nのシーケンスで発生する次の単語の確率を評価できます。nは通常2または3（バイグラムとトライグラム）として選択されます。

特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか？または、（データ構造）ディクショナリから確率を検索するのにかかる時間を考えてみてください。

text-mining natural-language

— ジョンスカ
ソース

この他に関連するスレッド次元の呪いについて

— アントワーヌ

2

特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか？

困惑とn-gramサイズのテーブルまたはプロットを探してください。

例：

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif：

http://images.myshared.ru/17/1041315/slide_16.jpg：

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg：

複雑さは、言語モデル、n-gramサイズ、およびデータセットによって異なります。いつものように、言語モデルの品質と実行にかかる時間の間にはトレードオフがあります。現在、最適な言語モデルはニューラルネットワークに基づいているため、n-gramサイズの選択はそれほど問題ではありません（ただし、CNNを使用する場合は、他のハイパーパラメーターの中からフィルターサイズを選択する必要があります）。

— フランク・ダーノンクール
ソース

12

「カウンター生産的」の測定値はarbitrary意的です-例えば。大量の高速メモリを使用すると、より高速に（より合理的に）処理できます。

それを言った後、指数関数的な成長がそれに来て、私自身の観察からそれは3-4マークの周りにあるようです。（特定の研究を見たことがない）。

トライグラムはバイグラムよりも優れていますが、小さいです。4グラムを実装したことはありませんが、改善はずっと少なくなります。おそらく同様の規模の減少です。例えば。トライグラムがバイグラムよりも10％改善した場合、4グラムの合理的な推定値は、トライグラムよりも1％改善される可能性があります。

$10,000$ $10000^2$ $10000^3$ $10000^4$

希釈効果を補うために巨大なコーパスが必要になりますが、Zipfの法則によれば、巨大なコーパスにはさらにユニークな単語が含まれることになります...

これが、多くのバイグラムおよびトライグラムモデル、実装、およびデモを見る理由であると推測します。ただし、完全に機能する4グラムの例はありません。

— winwaed
ソース

2

良い要約。次のペーパーのページ48〜53（「長いとりとめのあるシニカルダイアトリート」）で詳細を説明しています（ペーパーには高次のn-gramの結果も含まれています）research.microsoft.com/~joshuago/longcombine.pdf

— Yevgeny

2

リンクは無効です。完全なリファレンスとarXivバージョンへのリンク：Joshua T. Goodman（2001）。言語モデリングの進歩：拡張バージョン。Microsoft Research：ワシントン州レドモンド（米国）。テクニカルレポートMSR-TR-2001-72。

— scozy