ユークリッド距離スコアと類似度


13

Toby Segaran著のCollective Intelligenceという本を扱っているところですが、ユークリッドの距離スコアに出会いました。この本では、著者は2つの推奨配列(つまり、の類似性を計算する方法を示しています。person×moviescore)

彼は二人のためのユークリッド距離を算出するおよびP 2によって D P 1P 2= p1p2

d(p1,p2)=i  item(sp1sp2)2

これは私にとって完全に理にかなっています。私が本当に理解していないのは、彼が最後に「距離ベースの類似性」を得るために以下を計算する理由です。

11+d(p1,p2)

だから、私はどういうわけかこれは距離から類似度への変換でなければならないことを知っています(右?)。しかし、なぜフォーミュラはこのように見えるのでしょうか?誰かがそれを説明できますか?


相違点と類似点を相互に変換する多くの方法があります-特定の式は、あなたにとって、そして将来の分析のために意味をなすものに依存します。その教科書では、著者は何らかの理由で表示する式を好みました。別の状況の誰かが別の式を選択する場合があります。ユークリッド距離を類似度に変換する最も幾何学的に正しい方法は、データ中心の条件下でのコサイン定理から得られるものであり、ここでパラメーターで説明します。1.
ttnphns

OK!しかし、私が正しく理解すれば、ユークリッド距離を実際に類似度に変換するのではなく、0と1の範囲内の値を返す別の関数を使用するだけです(コサインのため)?つまり、すべての距離を計算してから、例えば最小距離と最大距離の間を補間することで類似度に変換することとは違うように思えます。正しい?
ナビ

ユークリッド距離の平方の正方対称行列があり、それに対して「二重センタリング」演算を実行すると、ユークリッド空間の原点を構成の中心に置いたときに観測されるスカラー積の行列が得られます。オブジェクト。これらのスカラー積は、角度タイプの類似点です。それらは共分散によく似ています。これらは0〜1の範囲内にバインドされておらず、負、正、対角要素は必ずしも1である必要はありません。それでも、それらは類似点です。
ttnphns

回答:


12

逆は、距離から類似性に変更することです。

分母の1は、最大値が1になるようにすることです(距離が0の場合)。

平方根-わかりません。距離が通常1より大きい場合、ルートは大きな距離の重要性を下げます。距離が1未満の場合、大きな距離がより重要になります。


ごめんなさい!平方根が間違っていました。著者は実際に2番目の式に入れましたが、最初の式では省略しました。そこにあるべきではない
ナビゲートする

はい。ただし、最大値を1に設定するヒントは理にかなっています。ありがとう!
ナビ

4

(意味的に)距離と類似度を測定するために最初に確認することは、ユークリッド空間を移動しているかどうかです。これを検証する経験的な方法は、意味がわかっている値のペアの距離を推定することです。


1

あなたが述べたように、ユークリッド距離の計算を知っているので、2番目の式を説明しています。

ユークリッドの式は距離を計算します。距離は、より似ている人やアイテムの場合は小さくなります。それらが同じである場合、距離は0であり、完全に異なる場合は0より大きくなります。

ただし、これらの値がより高い値を提供する関数が必要です。これは、関数に1を追加して(ゼロ除算エラーが発生しないように)反転することで実行できます。距離0および類似度スコア1/1 = 1の場合


この答えがわかりません。
マイケルR.チャーニック

アイテム1とアイテム2の間のユークリッド距離が4で、アイテム1とアイテム3の間のユークリッド距離が0であるとしましょう(100%類似していることを意味します)。これらは、仮想空間内のアイテムの距離です。距離値が小さいほど、それらが互いに近いことを意味し、類似する可能性が高いことを意味します。ここで、数値が非常に類似している場合により高い数値が得られるような数値が必要です。したがって、距離値を逆にすることができます。しかし、距離が0の場合、分母に1を追加するのはなぜですか。そのため、アイテム1と2の類似度スコアは1 /(1 + 4)= 0.2で、アイテム1とアイテム3の類似度スコアは1 /(1 + 0)= 0
user10009133

ある種の距離測定について話しているかもしれませんが、ユークリッド距離はベクトル空間に関する特定の公式に従います。
マイケルR.チャーニック

「距離ベースの類似性」を得るために、最後に次を計算する理由を説明しています。 1/1+dp1p2
user10009133
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.