SVDの前に単語共起行列に個別の相互情報を適用することの長所と短所は何ですか?


11

単語の埋め込みを生成する1つの方法は次のとおりですミラー)。

  1. コーパスを取得します。たとえば、「飛行が好きです。NLPが好きです。ディープラーニングが好きです。」
  2. それから単語共起行列を作成します。

ここに画像の説明を入力してください

  1. でSVDを実行し、Uの最初の列を保持します。Xk

ここに画像の説明を入力してください

部分行列の各行は、その行が表す単語を埋め込んだ単語になります(行1 = "I"、行2 = "like"、…)。U1:|V|,1:k

ステップ2と3の間に、点ごとの相互情報適用される場合がありますA. HerbelotとEM Vecchiなど。2015。共有世界の構築:モデル理論的意味空間への分布のマッピング。自然言語処理における経験的方法に関する2015年会議の議事録。リスボン、ポルトガル。)

SVDの前に単語共起行列に個別の相互情報を適用することの長所と短所は何ですか?

回答:


11

よるとダンJurafskyとジェームズH.マーティンブック:

「しかし、単純な頻度は単語間の関連性の最良の尺度ではないことが判明しました。1つの問題は、生の頻度が非常に歪んでいてあまり差別的でないことです。アプリコットとパイナップルが共有するコンテキストの種類を知りたい場合しかし、デジタルや情報によってではなく、あらゆる種類の単語で頻繁に発生し、特定の単語についての情報を提供しない、the、it、またはそれらのような単語からの優れた区別は得られません。」

時々、私たちはこの生の頻度をポジティブな点ごとの相互情報で置き換えます:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI自体は、コンテキストワードCを使用してワードwを観察することがどれだけ可能であるかを示しています。PPMIでは、PMIの正の値のみを保持します。PMIが+または-の場合と、なぜ負の値のみを維持するのかを考えてみましょう。

正のPMIはどういう意味ですか?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • これは、とがキックやボールのように個別に発生するよりも相互に発生したときに発生します。残しておきたい!cwc

負のPMIはどういう意味ですか?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • これは、と両方、またはどちらか一方が個別に発生する傾向があることを意味します。データが限られているため、信頼性の低い統計情報を示している可能性があります。そうでない場合は、「the」や「ball」など、有益ではない共起を示します。(「the」はほとんどの単語でも発生します。)cwc

PMIまたは特にPPMIは、有益な共起でこのような状況を捉えるのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.