これはこの質問のフォローアップです。現在、クラスターの階層から最適に近い数のクラスターを見つけるために、C-Indexを実装しようとしています。(凝集)階層的クラスタリングのすべてのステップのC-Indexを計算することでこれを行います。問題は、非常に縮退したクラスタリングのC-Indexが最小限(正確には0)であることです。このことを考慮:
この場合、は、すべてのクラスターにわたる同じクラスター内の観測値のペア間のすべての距離の合計です。してみましょうnはこれらのペアの数です。S m i nとS m a xは、観測値のすべてのペアにおけるn個の最短/最長距離の合計です。階層的クラスタリングの最初のステップでは、最も近い2つの観測値(最小距離)が1つのクラスターにマージされます。してみましょうdはこれらの観測間の距離とすること。同じクラスターに観測値のペアが1つあるため、n = 1になります(他のすべてのクラスターはシングルトンです)。したがって、S =。問題は、 S m i nも dに等しいことです。これは、 dが最小距離であるためです(そのため、観測値が最初にマージされます)。したがって、この場合、C-Indexは常に0です。シングルトンクラスタのみがマージされる限り、C-Indexは0のままです。つまり、C-Indexに基づく最適なクラスタリングは、常に2つの観測値と残りのシングルトンを含む一連のクラスターで構成されます。これは、C-Indexが階層型クラスタリングに適用できないことを意味しますか?私は何か間違ったことをしていますか?何度も検索しましたが、適切な説明が見つかりませんでした。誰かがインターネットで無料で入手できるリソースを私に紹介できますか?あるいは、そうでなければ、少なくとも私が大学の図書館で手に入れようとする本かもしれない。
前もって感謝します!