要素Eのセットと、2つの要素ei、ej∈E間の類似性(距離ではない)関数sim(ei、ej)があると仮定します。
simを使用して、Eの要素を(効率的に)クラスター化するにはどうすればよいですか?
たとえば、k -meansには所定のkが必要で、Canopy Clusteringには2つのしきい値が必要です。このような事前定義されたパラメーターが必要ない場合はどうなりますか?
simは必ずしもメトリックではないことに注意してください(つまり、三角形の不等式は成り立つ場合もあれば、成り立たない場合もあります)。さらに、クラスターが互いに素(Eのパーティション)であるかどうかは関係ありません。
1-sim(ei, ej) = Distance
。距離メトリックを使用すると、たとえば階層クラスタリングを適用できます。ルートから下に進むと、特定の問題に対してどのレベルの粒度クラスターが意味をなすかがわかります。