n個のセットのグループがあり、それらに対して「一意性」または「類似性」の値を計算する必要があります。適切な指標としてJaccardインデックスに決めました。残念ながら、Jaccardインデックスは一度に2つのセットでのみ動作します。すべてのセット間の類似性を計算するには、 Jaccard計算の順序で必要になります。
(それが役立つ場合、は通常10と10000の間であり、各セットには平均500個の要素が含まれます。また、最終的に、2つの特定のセットがどれだけ似ているかは気にしません-むしろ、内部の類似性だけを気にしますセットのグループ全体の(つまり、グループ内のすべてのJaccardインデックスの平均(または少なくとも平均の十分に正確な近似))
2つの質問:
- 複雑さなしでJaccardインデックスを使用する方法はありますか?
- 上記で提案した方法よりも、セットのグループ全体でセットの類似性/一意性を計算するより良い方法はありますか?