ましょう、我々はと呼ぶ関数である類似度関数。類似性関数の例は、コサイン距離、ノルム、ハミング距離、ジャカード類似性などです。
長さバイナリベクトルを考えます:。
私たちの目標は、類似するベクトルをグループ化することです。より正式には、ノードがベクトルで、エッジが類似するベクトルを表す類似性グラフを計算します()。
とは非常に大きな数値であり、2つの長さベクトルを比較するとコストがかかるため、総当たりの操作をすべて実行することはできません。大幅に少ない操作で類似性グラフを計算したいと考えています。
これは可能ですか?そうでない場合、類似性グラフのすべてのエッジに加えて、多くても他のエッジを含むグラフの近似を計算できますか?
ではなく、必要がありますか?
—
usul 2014
@usulコメントをありがとう:)ここでは、非常に類似しているアイテムをグループ化することに関心があります。質問を編集しました。今は明確になっているといいのですが。
—
ラム
類似性保持ハッシュ(arxiv.org/pdf/1311.7662v1.pdf)を使用して問題の次元を減らすことができるように思えます。
—
RB
この質問は明確に定義されていません。詳細を入力してください。たとえば、がオラクルによって与えられた場合、超えることはできません。
—
domotorp 2014
Twitterで働いていますか?blog.twitter.com/2014/all-pairs-similarity-via-dimsum 真剣に、このグラフにエッジがあるかどうかを検出すること(つまり、独立した頂点のセットではないこと)を検出することは、任意の相似関数の。
—
ライアンウィリアムズ