誰かが階層的クラスタリングのコンテキストでC-Indexを説明できますか?


8

これはこの質問のフォローアップです。現在、クラスターの階層から最適に近い数のクラスターを見つけるために、C-Indexを実装しようとしています。(凝集)階層的クラスタリングのすべてのステップのC-Indexを計算することでこれを行います。問題は、非常に縮退したクラスタリングのC-Indexが最小限(正確には0)であることです。このことを考慮:

c=SSメートルSメートルaバツSメートル

この場合、は、すべてのクラスターにわたる同じクラスター内の観測値のペア間のすべての距離の合計です。してみましょうnはこれらのペアの数です。S m i nS m a xは、観測値のすべてのペアにおけるn個の最短/最長距離の合計です。階層的クラスタリングの最初のステップでは、最も近い2つの観測値(最小距離)が1つのクラスターにマージされます。してみましょうdはこれらの観測間の距離とすること。同じクラスターに観測値のペアが1つあるため、n = 1になります(他のすべてのクラスターはシングルトンです)。したがって、S =SSメートルSメートルaバツd=1。問題は、 S m i n dに等しいことです。これは、 dが最小距離であるためです(そのため、観測値が最初にマージされます)。したがって、この場合、C-Indexは常に0です。シングルトンクラスタのみがマージされる限り、C-Indexは0のままです。つまり、C-Indexに基づく最適なクラスタリングは、常に2つの観測値と残りのシングルトンを含む一連のクラスターで構成されます。これは、C-Indexが階層型クラスタリングに適用できないことを意味しますか?私は何か間違ったことをしていますか?何度も検索しましたが、適切な説明が見つかりませんでした。誰かがインターネットで無料で入手できるリソースを私に紹介できますか?あるいは、そうでなければ、少なくとも私が大学の図書館で手に入れようとする本かもしれない。S=dSメートルdd

前もって感謝します!


あなたの観察は正しいですが、C-インデックスでそれはすべてうまくいきます。観察されたクラスタリングソリューションがクラスタ内の指定された(観察された)数の距離で理論的に「理想的な」最良のソリューションと異ならない場合、C-indexは0です。すべてがオブジェクトのタイトなペアで構成され、ペアがかなり離れているデータセットを考えます。実質的にすべてのリンケージ方式での階層的クラスタリングは、最初のステップで、まずオブジェクトをこれらのペアに「収集」します。そして、その間ずっとCインデックスは0のままです。後で、クラスタリングは離れたペアの間でマージするようになります。Cインデックスは急激に悪化します。
ttnphns 2018年

C-indexを計算するアルゴリズムをここに示しますstats.stackexchange.com/q/343878/3277
ttnphns 2018年

PS C-Indexは低い(0に近い)ほうが良いことを忘れないでください!
ttnphns 2018年

回答:


2

これは、クラスタリングに科学以上の芸術があるケースの1つかもしれません。C-Index計算を開始する前に、クラスタリングアルゴリズムを短時間実行することをお勧めします。「短時間」は、数ペアを処理した後、0を超え始めた直後、またはその他のヒューリスティックな場合があります。(結局、1つまたは2つのクラスターで停止することを期待していない場合は、別の分離アルゴリズムがデプロイされている可能性があります。)

本の推薦について、私は提案することができます:

Googleブックで利用可能なコンテンツをスキャン/検索して、ニーズに合っているかどうかを確認できます。過去の参考になりました。


おっと、凝集法を使用しているので、「1または2クラスター」の部分は意味がありません。「逆」が適用されます。つまり、n-1またはn-2のシングルトンなどは必要ありません。妥当性基準を適用する前に少し作業しても問題ありません。
ARS
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.