Calinski&Harabasz(CH)基準の許容値は何ですか?


25

Rとkmlパッケージを使用して縦断データをクラスター化しようとするデータ分析を行いました。私のデータには、約400の個別の軌跡が含まれています(この論文で呼ばれています)。次の図に私の結果を見ることができます。

ここに画像の説明を入力してください

対応する論文の 2.2章「最適なクラスター数の選択」を読んだ後、答えが得られませんでした。3つのクラスターを使用することをお勧めしますが、結果は80のCHでまだOKです。実際、CH値が何を表すかさえわかりません。

だから私の質問、Calinski&Harabasz(CH)基準の許容値は何ですか?


クラスターソリューションイメージはSPSSからのものですか?SPSSでこのCH基準をカウントすることは可能ですか?ありがとう!:) b
ベルベライン14年

@berbeleinのサイトへようこそ。これは、OPの質問に対する答えではありません。[回答]フィールドのみを使用して回答を提供してください。質問がある場合は、質問をクリックして[ASK QUESTION]ください。適切なサポートを提供できます。ここは初めてなので、新しいユーザー向けの情報が含まれるツアーに参加してください。
GUNG -復活モニカ

画像@berbelein R.からのものである
greg121

回答:


40

知っておくべきことがいくつかあります。

  • ほとんどの内部クラスタリング基準と同様に、Calinski-Harabaszはヒューリスティックデバイスです。それを使用する適切な方法は、同じデータで得られたクラスタリングソリューションを比較することです-クラスターの数または使用されたクラスタリング方法のいずれかによって異なるソリューション。

  • 「許容可能な」カットオフ値はありません。単に目でCH値を比較します。値が高いほど、ソリューションは「より良い」ものになります。CH値のラインプロットで、1つのソリューションがピークまたは少なくとも急激なエルボを与えるように見える場合は、それを選択します。反対に、線が滑らかな場合-水平または昇順または降順-あるソリューションを他のソリューションよりも優先する理由はありません。

  • CH基準は、ANOVAイデオロギーに基づいています。したがって、クラスター化されたオブジェクトは、ユークリッドのスケール空間(順序、バイナリ、名義ではない)変数にあることを意味します。クラスター化されたデータがオブジェクトX変数ではなく、オブジェクト間の非類似度のマトリックスである場合、非類似度は(平方)ユークリッド距離(または、さらに悪いことに、プロパティによってユークリッド距離に近づく他のメトリック距離)である必要があります。

  • CH基準は、クラスターがほぼ球形で、中央がコンパクトな場合(たとえば正規分布など)最適です。他の条件が等しい場合、CHは、ほぼ同じ数のオブジェクトで構成されるクラスターを使用したクラスターソリューションを好む傾向があります。1

例を見てみましょう。以下は、互いに非常に近い5つの正規分布クラスターとして生成されたデータの散布図です。

ここに画像の説明を入力してください

これらのデータは、階層平均リンク方式によってクラスター化され、15クラスターから2クラスターソリューションまでのすべてのクラスターソリューション(クラスターメンバーシップ)が保存されました。次に、2つのクラスタリング基準を適用して、ソリューションを比較し、「より良い」ものがあればそれを選択しました。

ここに画像の説明を入力してください

Calinski-Harabaszのプロットが左側にあります。この例では、CHが5クラスターソリューション(CLU5_1とラベル付け)が最適なソリューションであることを明確に示しています。別のクラスタリング基準のプロット、C-Index(ANOVAイデオロギーに基づいておらず、アプリケーションはCHよりも普遍的です)が右側にあります。C-Indexの場合、低い値は「より良い」ソリューションを示します。プロットが示すように、15クラスターのソリューションが正式に最適です。ただし、クラスタリング基準では、マグニチュード自体よりも堅牢な地形が決定において重要であることを忘れないでください。5クラスターソリューションにはエルボがあります。5クラスターソリューションは依然として比較的良好ですが、4クラスターまたは3クラスターソリューションは飛躍的に劣化します。通常、「より少ないクラスターでより良いソリューション」を取得したいので、C-Indexテストでも、5クラスターソリューションの選択が妥当であると思われます。

PS この投稿では、クラスタリング基準の実際の最大値(または最小値)をより信頼すべきか、それともその値のプロットのランドスケープをより信頼すべきかという問題も取り上げています。


1 後で注意してください。書かれているとおりではありません。シミュレートされたデータセットに関する私の調査では、クラスタ内の全体的な分散とクラスタ間の重心の分離を同じに保つ場合、CHは板状のもの(ボールなど)よりもベル形の分布や楕円形のものよりも円形のクラスタに優先することはないと確信しています。ただし、留意する価値のあるニュアンスの1つは、クラスターが(通常のように)空間で重複しないことが必要な場合、ラウンドクラスターを使用した適切なクラスター構成は、楕円形クラスターを使用した同様の優れた構成として実際に簡単に遭遇することです( 「ケースの鉛筆」効果); これは、クラスタリング基準のバイアスとは関係ありません。

内部クラスタリング基準の概要とそれらの使用方法


読者は質問stats.stackexchange.com/q/242360/3277も見たいかもしれません。
ttnphns

SPSSには、最も一般的なクラスタリング検証基準をいくつか実装しています。Webページのコレクション「クラスタリング基準」にアクセスしてください。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.