類似度の設定-二次複雑性なしでJaccardインデックスを計算

n個のセットのグループがあり、それらに対して「一意性」または「類似性」の値を計算する必要があります。適切な指標としてJaccardインデックスに決めました。残念ながら、Jaccardインデックスは一度に2つのセットでのみ動作します。すべてのセット間の類似性を計算するには、 Jaccard計算の順序で必要になります。 $n$ $n^2$

（それが役立つ場合、は通常10と10000の間であり、各セットには平均500個の要素が含まれます。また、最終的に、2つの特定のセットがどれだけ似ているかは気にしません-むしろ、内部の類似性だけを気にしますセットのグループ全体の（つまり、グループ内のすべてのJaccardインデックスの平均（または少なくとも平均の十分に正確な近似）） $n$

2つの質問：

複雑さなしでJaccardインデックスを使用する方法はありますか？ $n^2$
上記で提案した方法よりも、セットのグループ全体でセットの類似性/一意性を計算するより良い方法はありますか？

algorithms time-complexity

— りのご
ソース

「内部の類似性」とはどういう意味ですか？

— -Suresh

言い換えると、グループ内のすべてのJaccardインデックスの平均（または少なくとも平均の十分に正確な近似）。

回答を近似する場合は、最小単位のハッシュを使用してジャカード距離を概算し、結果の表現を使用して目的の平均を計算できます。

— -Suresh

「十分に正確」という意味はわかりませんが、多くのことの平均を推定する1つの方法は、それらのいくつか（この場合は複数のペアのセットのJaccardインデックス）をランダムに計算し、平均を計算することです。次に、チェルノフ境界を使用して、この推定値が真の平均から遠くなる確率の上限を取得できます。

— 伊藤剛

回答:

オプションは、[1]の署名方式を使用することです。サイズベースのフィルタリング：考慮する必要があるセットペアの数を減らすためにサイズ情報を使用する方式。

彼らはまた、重み付きフォームで実験します。ここで、重みはIDFベースです。

[1] Arasu、Arvind、Venkatesh Ganti、およびRaghav Kaushik。「効率的で正確な集合類似性の結合」。第32回超大規模データベースに関する国際会議の議事録、918〜929。VLDB '06。VLDB寄付、2006

— AT
ソース

そのリンクは死んだようです。vldb.org/conf/2006/p918-arasu.pdfへの更新を検討してください。

— j_random_hacker

別のオプションはwikiリンクをハッシュするローカルの感度を採用することでしょう。IそれはWuおよびゾウ（によってコミュニティ類似度検出に使用されている見た局所性鋭敏型ハッシュ使用してソーシャルタギングシステムの増分コミュニティ検出方法、ニューラルネットワーク 58：14-28と、ACM DL）は、基本的に整数の間の類似性を検出している、または文字列セット。

— dinos66
ソース

リンクの内容を要約し、論文を引用してください。リンクが古くなると、現在の答えは役に立たなくなります。

— フォンブランド