kmeansクラスタリングにエルボポイントがない場合はどうしますか


13

いくつかのクラスターを選択するときは、Kの異なる値のエルボーポイントを探す必要があることを学びました。1〜10のkの値に対して、insinssの値をプロットしましたが、はっきりと見えません。肘。このような場合はどうしますか?

面倒なKMeans


2
多くのクラスタリング基準が存在し、「SSエルボ」ルールはただ1つであり、最良ではありません。他を試してください。データにクラスターが含まれていない可能性もあります。
ttnphns 14年

@ttnphnsあなたが話すこの神秘的な他の人とは何ですか?データにクラスターを含めることはできませんか?どうやって知るの?
グレン

回答:


7

間違った方法?

たぶんあなたはあなたの問題に対して間違ったアルゴリズムを使用しているのでしょう。

前処理が間違っていますか?

K-meansは前処理に非常に敏感です。1つの属性が他の属性よりもはるかに大きい場合、出力を支配します。出力は事実上1次元になります

結果を視覚化する

何をするにしても、SSQのような数字から始める以外の方法で結果を検証する必要があります。代わりに、視覚化を検討してください

また、視覚化により、データ内にクラスター1つしかない場合もあることがわかります。


多次元データの優れた視覚化オプションは何ですか?
ジェレミー

1
データに依存します。一部のデータは、固有の次元がはるかに低いため、うまく投影できます。時系列は簡単にプロットでき、データがシリアル化された画像である場合、画像として視覚化できますか?いずれにしても、視覚化はデータに依存するため、万能のソリューションはありません。
QUITを使用--Anony-Mousse 14年

3

1つの方法は、特定のkについてクラスター内のメンバーを手動で検査し、グループ化が意味をなすかどうかを確認することです(それらは区別可能ですか?)。これは、分割表と条件付き手段を介して実行できます。これをさまざまなkに対して行い、適切な値を決定できます。

主観的ではない方法は、Silhouette Valueを使用することです。

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

これは、お気に入りのソフトウェアパッケージで計算できます。リンクから:

この方法は、グループ内の類似性と最も近いグループの類似性を比較するだけです。同じクラスターの他のメンバーへのデータメンバーの平均距離が、他のクラスターメンバーへの平均距離よりも大きい場合、この値は負であり、クラスタリングは成功しません。一方、影絵の値が1に近い場合、クラスタリング操作が成功したことを示します。0.5は、クラスタリングの正確な尺度ではありません。


グレン、個人的にはあなたの答えは不完全だと思う。最初の段落は不明瞭に見えます。その「手動検査」とは何ですか、手順を説明してください。では、Silhouetteはよりも「主観的」ではありませんか?なぜ?
ttnphns 14年

@ttnphns回答が更新されました。
グレン

contingency tables and conditional meansこれはさらに神秘的です。良いkに「主観的に」到達するためにそれらをどうすればよいですか?
ttnphns 14年

@ttnphnsポスターについて質問がある場合は、フォローアップします。前述したように、グループ化が区別できるかどうかを確認する必要があります。私には明らかなようです。
グレン

したがって、低いシルエット値(〜.35)を取得した場合、このデータには実際には適切なクラスターがないことを示している可能性があります。
ジェレミー

0
  • K-meansにエルボがないということは、データにクラスターがないことを意味しません。
  • エルボがないということは、使用するアルゴリズムがクラスターを分離できないことを意味します。(同心円のK-meansとDBSCANについて考えてください)

通常、次のことを検討できます。

  • アルゴリズムを調整します。
  • 別のアルゴリズムを使用します。
  • データの前処理を行います。

-1

NbClustパッケージを使用して、kの最適値を見つけることができます。クラスタ数を決定するための30のインデックスを提供し、最良の結果を提案します。

NbClust(data = df、distance = "euclidean"、min.nc = 2、max.nc = 15、method = "kmeans"、index = "all")


サイトへようこそ!この答えを詳しく教えてもらえますか?役立つ一方で、もう少し詳細にするとより便利になります。
mkt-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.