クラスター数を決定するためのエルボ基準


9

言及され、ここでデータ・セット内のクラスターの最適数を決定するための方法の一つは、「肘方法」であること。ここで、分散のパーセンテージは、グループ全体の分散に対するグループ間の分散の比率として計算されます。

この計算を理解するのは難しいと感じました。機能マトリックスとして表されたデータセットの分散の割合を計算する方法を説明できますかFRm×n、 どこ m フィーチャーディメンションであり、 nデータポイントの数です。クラスタリングにはk-meansアルゴリズムを使用しています。

回答:


13

k平均アルゴリズムの根底にある考え方は、クラスター内の分散を最小化する(または定数まで対応する二乗の合計またはSSを最小化する)クラスターを見つけようとすることです。修繕。wikiで述べたように、SS内で直接使用し、クラスターの数を増やすときにその変化を見ることができます(Screeplotを使用したFactor Analysisで行うように):SSの進化方法の突然の変更は、最適なソリューションを示唆しています、これは単に視覚的な評価から立っています。全体の分散が固定されているため、説明された分散のパーセンテージとも呼ばれる、SSとの間の比率がどのように進化するかを調査することと同じです。これは、この場合、1つのkから次のkに大きなギャップが生じるためです。 +1。

要約すると、各クラスターについて、各データポイントとそれぞれの中心(または重心)の間の距離の2乗を計算する必要があります-これにより、SS内が得られ、SS内の合計はクラスター固有の合計になりますWSS(それらを分散に変換することは、対応する自由度で除算するだけの問題です); SS間は、総SSから総WSSを引くことにより得られ、後者は、例えば、k = 1を考慮することにより得られる。

ちなみに、k = 1では、WSS = TSSおよびBSS = 0です。

クラスターの数またはk平均法で停止する場所を決定した後である場合は、エルボ基準の代わりにギャップ統計を検討することができます。

Tibshirani、R.、Walther、G.およびHastie、T.(2001)。ギャップ統計を介したデータセット内のクラスター数の推定JR Statist。Soc。B、63(2):411-423。


+1詳しい説明ありがとうございます。異なる距離メトリック、たとえばコサイン類似度を使用すると、クラスターの最適な数を決定するための方法論が変化するのかどうか疑問に思っていました。これについて何かご意見はありますか?
レジェンド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.