準二次時間で類似のベクトルを見つける


9

ましょう、我々はと呼ぶ関数である類似度関数。類似性関数の例は、コサイン距離、ノルム、ハミング距離、ジャカード類似性などです。d:{0,1}k×{0,1}kRl2

長さバイナリベクトルを考えます:。nkv({0,1}k)n

私たちの目標は、類似するベクトルをグループ化することです。より正式には、ノードがベクトルで、エッジが類似するベクトルを表す類似性グラフを計算します()。d(v,u)ϵ

nとは非常に大きな数値であり、2つの長さベクトルを比較するとコストがかかるため、総当たりの操作をすべて実行することはできません。大幅に少ない操作で類似性グラフを計算したいと考えています。kkO(n2)

これは可能ですか?そうでない場合、類似性グラフのすべてのエッジに加えて、多くても他のエッジを含むグラフの近似を計算できますか?O(1)


ではなく、必要がありますか?ϵϵ
usul 2014

@usulコメントをありがとう:)ここでは、非常に類似しているアイテムをグループ化することに関心があります。質問を編集しました。今は明確になっているといいのですが。
ラム

類似性保持ハッシュ(arxiv.org/pdf/1311.7662v1.pdf)を使用して問題の次元を減らすことができるように思えます。
RB

4
この質問は明確に定義されていません。詳細を入力してください。たとえば、がオラクルによって与えられた場合、超えることはできません。d(n2)
domotorp 2014

5
Twitterで働いていますか?blog.twitter.com/2014/all-pairs-similarity-via-dimsum 真剣に、このグラフにエッジがあるかどうかを検出すること(つまり、独立した頂点のセットではないこと)を検出することは、任意の相似関数の。O(n2)
ライアンウィリアムズ

回答:


5

ジョンソンリンデンシュトラウスの定理をこの問題に当てはめる方法があるかもしれません。基本的に、JLは、ペアワイズ距離がほぼ維持されるように、高次元データを低次元空間に投影できると述べています。より実際的には、Achlioptasはデータベースに適したランダム予測と呼ばれる論文を持っています:ランダムな方法でこの予測を行うバイナリコイン備えたJohnson-Lindenstraussは、実際にはかなりうまく機能します。

さて、確かに、類似性関数はJLの定理に当てはまるものとまったく同じではありません。しかし、それは距離関数のように見え、おそらく上記の理論のいくつかが役立つかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.