最適なクラスター番号を決定する方法はありますか?または、異なる値を試してエラー率を確認して最適な値を決定する必要がありますか?
R
ここで半ダースの方法で(を使用して)同様のQに答えました:stackoverflow.com/a/15376462/1036500-
最適なクラスター番号を決定する方法はありますか?または、異なる値を試してエラー率を確認して最適な値を決定する必要がありますか?
R
ここで半ダースの方法で(を使用して)同様のQに答えました:stackoverflow.com/a/15376462/1036500-
回答:
私が使用する方法は、CCC(Cubic Clustering Criteria)を使用することです。クラスターの数を1ずつ増やしてCCCが最大になるまで探し、CCCが減少し始めるのを観察します。その時点で、(ローカル)最大でクラスターの数を取得します。これは、スクリープロットを使用して主成分の数を選択することに似ています。
SASテクニカルレポートA-108立方体クラスタリング基準(pdf)
=観測値の数 n k =クラスターの数 k p =変数の数 q =クラスターの数 X = n × pデータ行列 M = q × pクラスターの平均行列 Z =クラスター指標( z i k = 1 if obs 。 Iクラスタ内の Kそうでなければ、0)
各変数の平均が0であると仮定します:
、 M = (Z ′ Z )− 1 Z ′ X
(合計)マトリックス= T = X ′ X S S(クラスター間)マトリックス= B =
S S(クラスター内)マトリックス= W = T − B
(トレース=対角要素の合計)
列を1つの長い列に積み重ねます。
上の退行クロネッカー積のを有するP × Pの単位行列
を計算するR 2、この回帰の-同じR 2
CCCの考え方は、与えられたクラスターのセットで得られるR 2と、p次元空間で均一に分布したポイントのセットをクラスター化することで得られるを比較することです。