2
n-gramが単語の代わりにテキスト言語の識別に使用されるのはなぜですか?
2つの一般的な言語識別ライブラリ、Compact Language Detector 2 for C ++および Java用の言語検出では、どちらも(文字ベースの)n-gramを使用してテキスト機能を抽出しました。ワードオブワード(単一ワード/辞書)が使用されないのはなぜですか?また、バッグオブワードとNグラムの利点と欠点は何ですか? また、テキスト分類におけるn-gramモデルの他の用途は何ですか? おっと。同様の質問があるようです: バイグラム(N-gram)モデルを使用してテキストドキュメントの特徴ベクトルを構築することについて しかし、誰かがより包括的な答えを出すことができますか?言語識別の場合、どちらが良いですか? (願わくば、n-gramとword-of-wordsの意味を正しく理解できたと思います(笑)。