Rでのk平均クラスタリングの結果の解釈

kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.006000    3.428000     1.462000    0.246000

この場合、「クラスターの意味」とはどういう意味ですか？クラスタ内のすべてのオブジェクトの距離の平均ですか？

また、私は最後の部分で：

Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
 (between_SS / total_SS =  88.4 %)

その値は88.4％で、その解釈は何でしょうか？

— ジェームズ
ソース

クロスポストしないでください！stackoverflow.com/q/14524818/429846

— モニカの復活-G.シンプソン

いいえ、それは最初のクラスター（合計3つ）内のすべてのオブジェクトの平均にすぎません。iris.km $ betweenss / iris.km $ totssで88.4％を取得できます

— dfhgfh

k-meansに関する記事を読んでください。次に、クラスタの意味が明確である必要があります... K平均は距離ベースではありません。それは別名別名「偏差の二乗和」を最小化します。

— QUITあり-Anony-Mousse 2013年

平均が0であると仮定します。計算を行います。上記の仮定が違いを生むかどうかを確認します。その後幸せに暮らします。利益！

— mia

回答:

各データポイントからグローバルサンプル平均までの距離の2乗の合計を計算すると、が得られtotal_SSます。グローバルサンプル平均（または「重心」）を計算する代わりに、グループごとに1つ（ここでは3つのグループがあります）を計算し、次にこれら3つの平均のグローバル平均までの距離の2乗の合計を計算すると、が得られbetween_SSます。（これを計算するときは、グローバル平均までの各平均の二乗距離に、それが表すデータポイントの数を掛けます。）

クラスタリングの識別可能なパターンがなかった場合、3つのグループの3つの平均はグローバル平均に近くbetween_SSなり、のごく一部になりtotal_SSます。ここでは反対のことが当てはまります。これは、データポイントが、種に従って4次元空間に非常にきちんと集まっていることを示しています。

— F.チューセル
ソース

K-meansは、距離ベースのクラスタリングアルゴリズムではありません。

K平均法は、最小二乗和の割り当てを検索します。つまりtotal_SS、クラスターの中心にポイントを割り当てることで、正規化されていない分散（= ）を最小化します。

k-meansが収束するためには、2つの条件が必要です。

ポイントを再割り当てすると、平方和が減少します
平均を再計算すると、平方和が減少します

組み合わせの数は有限であるため、この値を無限に減らすことはできず、アルゴリズムはある時点で局所最適値に収束する必要があります。

割り当て関数を変更しようとするときはいつでも、犬が自分のしっぽを追いかけるように、アルゴリズムが終了しないリスクがあります。基本的に、両方のステップで目的関数について合意する必要があります。二乗和に関しては、算術平均が最適な選択であることはわかっています。そして、最初のステップとして、平均値ごとにを計算し、最小値を選択します。技術的には、ここでは距離計算はありません。数学的には、最小二乗和による割り当ては、ユークリッド距離の2乗を閉じることによる割り当てと同じです。これは、（計算にCPUサイクルを浪費する場合）ユークリッド距離の最小割り当てと同じです。だから直感 $\sum_i (x_i-\mu_{ji})^2$ $j$ sqrt 各ポイントを最も近い平均に割り当てる方法は正しいですが、最適化の問題は行いません。

between_SS おそらく、クラスターの中心がどれだけ離れているかを測定するための、2つの平均間の加重二乗和です（注：クラスターの中心、実際のクラスターは比較されません-技術的には、クラスターボロノイセルは隣接するクラスターボロノイセルに接触します）。

k-meansを使用すると、kを増やすことにより、単純なクラスタリングの品質を向上させることができます。ここで測定される品質は数学的な値であり、ユーザーの要件と一致しない場合があります。アイリスは実際には非常に良い例です。正確に3つのクラスターがあるはずの外部情報が与えられたとしても、k平均はしばしば満足のいく結果に収束しません。

k-meansの距離ベースのバリエーションが必要な場合は、k-medoidsをご覧ください。ここでは、平均をmedoidに置き換えることで収束が保証されます。

各オブジェクトは最も近いクラスターに割り当てられます（任意の距離メジャーによって）
クラスタの中心は、クラスタの最も中心にあるオブジェクトに、つまり他のすべてのオブジェクトとの平均距離が最小になるように更新されます。

各ステップで、距離の合計が減少します。組み合わせには有限の数があるため、アルゴリズムはある極小値で終了する必要があります。

— QUITあり-匿名ムース
ソース

興味深いポイント+1

— Cam.Davidson.Pilon 2013年

ここに距離計算がないのはなぜですか（kmeans単位）？分散を計算するためには、各要素の平均までの距離を計算する必要があるので、明らかに距離の計算が含まれていますね。

— ジュリアン

通常、分散は距離ではなく、「平均からの2乗偏差の期待値」として定義されます。

— QUITあり--Anony-Mousse 2017年