よるとダンJurafskyとジェームズH.マーティンブック:
「しかし、単純な頻度は単語間の関連性の最良の尺度ではないことが判明しました。1つの問題は、生の頻度が非常に歪んでいてあまり差別的でないことです。アプリコットとパイナップルが共有するコンテキストの種類を知りたい場合しかし、デジタルや情報によってではなく、あらゆる種類の単語で頻繁に発生し、特定の単語についての情報を提供しない、the、it、またはそれらのような単語からの優れた区別は得られません。」
時々、私たちはこの生の頻度をポジティブな点ごとの相互情報で置き換えます:
PPMI (w 、c )= max (ログ2P(w 、c )P(w )P(c )、0 )
PMI自体は、コンテキストワードCを使用してワードwを観察することがどれだけ可能であるかを示しています。PPMIでは、PMIの正の値のみを保持します。PMIが+または-の場合と、なぜ負の値のみを維持するのかを考えてみましょう。
正のPMIはどういう意味ですか?
P(w 、c )(P(w )P(c ))> 1
P(w 、c )> (P(w )P(c ))
これは、とがキックやボールのように個別に発生するよりも相互に発生したときに発生します。残しておきたい!cwc
負のPMIはどういう意味ですか?
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
これは、と両方、またはどちらか一方が個別に発生する傾向があることを意味します。データが限られているため、信頼性の低い統計情報を示している可能性があります。そうでない場合は、「the」や「ball」など、有益ではない共起を示します。(「the」はほとんどの単語でも発生します。)cwc
PMIまたは特にPPMIは、有益な共起でこのような状況を捉えるのに役立ちます。