言語モデリング：合計1をなぜそれほど重要なのですか？

スペル修正、機械翻訳、音声認識などの多くの自然言語処理アプリケーションでは、言語モデルを使用しています。言語モデルは通常、単語のシーケンス（n-gram）が大規模なコーパスで発生する頻度をカウントし、そのカウントを正規化して確率を作成することによって作成されます。目に見えないn-gramを説明するために、モデルで証明されているn-gramから確率質量の一部を取り、この質量を低次のn-gram（短い単語シーケンス）に分配する平滑化方法（ここにリストされているいくつかを参照）を使用します）バックオフ確率。

計算では分布を確率として維持する必要があるため、平滑化手法の多くは数学的に複雑になります（合計は1にする必要があります）。

この制約の理由は何ですか？他の種類のスコアではなく、厳密な確率を予測に使用する利点は何ですか？

PSリンクに対応するリファレンスは、[Stanley F. Chen and Joshua Goodman（1998）、an Empirical Study of Smoothing Techniques for Language Modeling]]です。

— user9617
ソース

私はこの分野で働いていませんが、観測値を合計して各値を合計で除算するとアルゴリズムが扱いにくくなる理由はわかりません。モデルが複雑すぎる、遅い、または数値的に不安定である（など）場合、問題は他の場所にある可能性が高いと私には思われます。

— gung-モニカの復活

そもそもカウントを分けることはそれほど悪いことではありません。平滑化を行うと、さらに複雑になります。Katzの例：en.wikipedia.org/wiki/Katz's_back-off_model

— user9617

@ user9617リンクが無効になっています。リンクを更新するか、参照を追加して、人々が今後もリソースをGoogleで検索できるようにしてください。よろしく

— Antoine

@Antoine完了。以前リンクしていたPDFに何が起こったのかよくわかりませんが、これも同じように問題ありません。

— user9617

@ user9617ありがとう+1！リンクが将来死ぬ場合に備えて、対応する参照を追加しました。

— Antoine

厳密な確率を使用する主な利点は、次のとおりです。a）数値の解釈が容易。b）その後の分析でベイズの定理と他の確率論的方法を使用できること。ただし、場合によっては不要です。たとえば、それ以上分析せずに結果をランク付けしたいだけの場合は、スコアを正規化する必要はありません。

— ドコーニー
ソース