コサインの類似性、ピアソン相関、およびZスコアの間に関係はありますか?


16

これらの3つの対策の間に何か関係があるのだろうかと思います。定義を参照することでそれらの間のつながりを作ることができないようです(おそらくこれらの定義に慣れていないので、それらをつかむのに少し苦労しているからです)。

コサインの類似性の範囲は0〜1であり、ピアソン相関の範囲は-1〜1であり、zスコアの範囲は不明です。

ただし、コサイン類似性の特定の値がピアソン相関またはzスコアについてどのように伝えることができるか、またはその逆はどうでしょうか?


1
何の zスコア?いくつかのもののzスコアはピアソン相関に関連する場合がありますが、他のもののZスコアは関連しない場合があります。たとえば、元の変数を内部で標準化する場合、xとyの間のピアソン相関は、それらのzスコアの期待される積です。またはピアソン相関のzスコア(ピアソン相関から特定の条件下での期待値を引いたものをすべてピアソン相関の標準誤差で割ったもの)について話しているかもしれません。
Glen_b -Reinstateモニカ

回答:


29

コサイン類似度 2つのベクトル間及びBは、それらの間だけの角度で のcos θ = A Bab 多くの用途で使用コサイン類似こと、ベクターは、(文書の例ターム頻度ベクトル)非負であり、この場合にはコサイン類似度は、非負となります。

cosθ=abab

ベクトルのZ -score」ベクターは、典型的には、のように定義される Z = X - ˉ Xバツz ここ ˉ X =1

z=バツバツ¯sバツ
そしてsは 2 、X = ¯ X - ˉ X2の平均および標準偏差であるX。ように、zは0と標準偏差1平均値を有し、すなわち、Zxがある標準化されたバージョンのXバツ¯=1nバツsバツ2=バツバツ¯2¯バツzzバツバツ

二つのベクトルのためyの、その相関係数は次のようになり ρ X Y = ¯ Z のX 、Z 、Yバツy

ρバツy=zバツzy¯

ここで、ベクトル平均がゼロの場合、その分散はs 2 a = 1になります。a、その単位ベクトルとZスコアにより関連されるように 、A =Asa2=1na2

a^=aa=zan

ab

TL; DRコサイン類似度は、単位ベクトルの内積です。ピアソン相関は、中心ベクトル間の余弦類似性です。ベクトルの「Zスコア変換」は、ノルムにスケーリングされた中心ベクトルです。n


+1。latexnaziのコメント:\|多くの場合||、より良いように見え、\lVert ... \rVertそれを書くための最良の方法です。
アメーバは、モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.