私が見たものから、(二次)Kneser-Ney平滑化式は何らかの形で次のように与えられます
正規化係数次のように与えられます
および単語w_nの継続確率
ここで、は、コンテキストwの数、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。
現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}(/)= P ^ 0_ {KN}(/)= \ frac {1} {V}であると述べているこの例に従ってみました。文書では、これを使用して-ChenとGoodmanを引用して、上記の式をP ^ 1_ {KN}(w)= P_ {cont}(w)として正当化します。
しかし、未知の単語が存在する場合にどのように機能するかはわかりません。これらの場合、ため、明らかに、未知の単語はトレーニングセットに関して何も継続しません。同様に、n-gramのカウントはます。
さらに、不明な単語のシーケンス(たとえば、OOD単語のトライグラム)が検出されると、用語全体がゼロになる場合があります。
私は何が欠けていますか?