K平均法によって引き起こされる可能性のあるクラスタリング

8

次の質問を私の試験のテスト問題として取得しましたが、答えを理解できません。

最初の2つの主成分に投影されたデータの散布図を以下に示します。データセットにグループ構造が存在するかどうかを調べます。これを行うには、ユークリッド距離測定を使用してk = 2でk平均アルゴリズムを実行しました。k-meansアルゴリズムの結果は、ランダムな初期条件に応じて、実行間で異なる可能性があります。アルゴリズムを数回実行して、いくつかの異なるクラスタリング結果を得ました。

データに対してk-meansアルゴリズムを実行すると、表示されている4つのクラスタリングのうち3つしか取得できません。k-meansで取得できないものはどれですか？（データについて特別なことは何もありません）

データの4つの可能なクラスタリング

正解はDです。誰かが理由を説明できますか？

clustering k-means

— ピル
ソース

2

あなたの教師または教授がこれをどのように説明するかを知っておくと良いでしょう

— アンディクリフトン'25年

3

これが私の教授の答えです 。k-meansアルゴリズムは、各クラスターの平均を計算し、データオブジェクトを最も近いクラスターに割り当てることにより、収束するまで進みます。Dでのクラスタリングが解決策である場合、2つのクラスター平均はPC2軸で約-1.8と0になります。これにより、PC2軸で-0.9と-1.8の間のデータオブジェクトが強制的に最初のクラスターにグループ化されます。 k-meansアルゴリズムの次の反復。したがって、Dは解にはなりません。

— ピル

7

ピーターフロムの答えにさらに肉を入れるために、k平均クラスタリングはデータ内のkグループを探します。この方法では、各クラスターに特定の位置に重心があると想定しています(x,y)。k平均アルゴリズムは、各ポイントから重心までの距離を最小化します（これは、データに応じてユークリッド距離またはマンハッタン距離になる可能性があります）。

クラスターを特定するために、どのデータポイントがどのクラスターに属しているかの初期推定が行われ、各クラスターの重心が計算されます。次に、距離メトリックが計算され、いくつかのポイントがクラスター間で交換されて、フィットが改善されるかどうかが確認されます。詳細には多くのバリエーションがありますが、基本的にk-meansは、クラスタリングソリューションに極小値があるため、初期条件に依存するブルートフォースソリューションです。

したがって、あなたのケースでは、ケースAの初期条件が広く分離されているように見えx、重心からデータまでの距離が小さいためクラスターが解決され、安定したソリューションになります。逆に、その1つの赤い点は他の多くの点よりも青い点の重心に近いため、Dを取得できません。したがって、赤い点は青いセットの一部になるはずです。

したがって、Dを取得できる唯一の方法は、クラスタリングプロセスが完了する前に中断する（またはクラスタを作成したコードが破損する）場合です。

— アンディクリフトン
ソース

2

ピーターフロムとアンディクリフトンからの回答のどちらも、元の投稿でDをクラスタリングから取得できない理由をより明確にしました。しかし、私はこの答えが最も徹底的であり、他の人にそれをより簡単に理解させることができると思います。助けてくれてありがとう！

— ピル、2014年

5

D内の円で囲まれた点は、PC1次元、PC2次元、またはそれらを組み合わせたユークリッド距離のいずれかの他の点から遠くないためです。

Aでは、PC1で単一点が他の点から遠く離れています

BとCには、簡単に分離できる2つの大きなグループがあります。確かに、BとCは同じクラスタリングです（ドットがない場合を除く）。ラベルが異なるだけです。

— ピーター・フロム
ソース

4

はい、そしてK平均法だけでなく、クラスター分析が解Dを与える可能性は低いと思います（不適切に調整された場合を除いて）。

— ttnphns 2014年

3

Dには単一の点のみが含まれるため、その中心は正確にこの点にあります。

残りのデータについては、この投影では中心が0,0に近い必要があります。

青い点の少なくとも1つは、最初の2つの主成分の青よりも赤の中心にかなり近い。結果は、ボロノイセルによって生成されたようには見えません。

— QUITあり-匿名ムース
ソース

1

これはあなたの質問に対する直接の回答ではありませんが、先生がどのようにセットアップを提案するか、つまり最初にPCAを適用してからクラスターを探すことは理にかなっています：

データセットがクラスター化された構造を持っている場合、PCAを介して取得される次元削減は、この構造をまったく尊重することが保証されていません。あなたの図では、PC1とPC2は、データの最大の変化を捉える変数（または変数の線形結合）のみを提供します。

言い換えると、最初からデータセットにクラスターが含まれているという仮説を立てる場合、最も重要な特徴は明らかにクラスターを区別するものであり、一般に、データセット全体の大きな変動の方向とは一致しません。

このようなシナリオでより意味のあるのは、最初にクラスター化し（次元削減なし）、次にLDAまたはXCAを実行するか、クラス/クラスターの識別情報を保持する類似のものを実行することです。

— ジュバーブ
ソース