(K-平均)クラスタリング手法で平均値のみが使用されるのはなぜですか?


8

K-meansなどのクラスタリング手法では、ユークリッド距離が使用するメトリックです。結果として、各クラスター内の平均値のみを計算します。そして、各平均値までの距離に基づいて要素が調整されます。

ガウス関数がメトリックとして使用されないのはなぜですか?を使用する代わりにxi -mean(X)、を使用できますexp(- (xi - mean(X)).^2/std(X).^2)。したがって、クラスター間の類似性が測定されるだけでなく(平均)、クラスター内の類似性も考慮されます(標準)。これもガウス混合モデルと同等ですか?

ここでは私の質問を超えていますが、平均シフトは上記と同じ質問が発生する可能性があると思います。


1
このスレッドは役に立つかもしれません。stats.stackexchange.com/questions/76866/…他の関連する質問がないかタグを検索します。
DL Dahly

@DLDahlyダーリーありがとう。EMベースのGMMを(分散に異なる重みを付けた)重み付きk平均として表示できますか?
lennon310 2013

それは私がどう思うかではありません。むしろ、分散がゼロになるように制約されているGMMとしてk平均を見る。
DLダーリー2013

回答:


5

文字通り何千ものk-meansバリエーションがあります。ソフト割り当て、分散、共分散(通常、ガウス混合モデリングまたはEMアルゴリズムと呼ばれます)を含みます。

ただし、いくつかの点を指摘しておきます。

  • K-meansはユークリッド距離に基づいていません。これは、分散の最小化に基づいています。分散は2乗ユークリッド距離の合計であるため、最小分散の割り当ては最小2乗ユークリッドを持つものであり、平方根関数は単調です。効率上の理由から、実際にはユークリッド距離を計算しない方が賢明です(ただし、正方形を使用します)

  • 別の距離関数をk-meansに接続すると、収束が停止する場合があります。両方のステップで同じ基準最小化する必要があります。2番目のステップは、平均を再計算することです。算術平均を使用して中心を推定することは、最小二乗推定量であり、分散を最小化します。どちらの関数も分散を最小化するため、k-meansは収束する必要があります。他の距離との収束を確実にしたい場合は、PAM(medoidの周りのパーティショニング。medoidは任意の距離関数のクラスター内距離を最小化します)を使用します。

しかし、結局のところ、k-meansとそのすべてのバリエーションは、実際のクラスター分析アルゴリズムよりも最適化(より正確には、ベクトル量子化アルゴリズム)のIMHOです。それらは実際には構造を「発見」しません。彼らはあなたのデータをk個のパーティションにマッサージします。それらにランダム性を超える構造がまったくない均一なデータを与えた場合でも、k-meansは検出したい「クラスター」をいくつでも見つけます。k-meansは、基本的にランダムな結果を返すことに満足しています


1
+1。ただし、K-meansがクラスタリングではないという主張は、あまりにも過激であり、「データマイニング」の観点でもあるようです。歴史的にK-meansは古典的なパーティショニングクラスタ分析です。「非構造化」データを適切に分割するという事実は、それをクラスタリングのドメインから除外するものではありません。多くのタイプの分析は、いわば誤用され、ばかげた結果をもたらす可能性があります。
ttnphns 2013

もう1つK-means is not based on Euclidean distance、回答の明確な場所が十分ではありません。あなたと私は過去にそれについて議論しました、そして私は分散最小化クラスター内のペアワイズユークリッドd ^ 2の合計に関連していることを示しました。
ttnphns 2013

私は分散を介してユークリッド距離との関係を明確に述べています。重要なのは、ユークリッドを交換せずに、分散を別のメジャーに置き換えてから(割り当てを選択し、それに応じて更新する)、平均値が引き続き意味を持つことを期待することです。
QUITあり-Anony-Mousse

歴史的に、k-meansはロイドによって「PCMの最小二乗量子化」として公開されました。同様に、シュタインハウスは量子化を実行したいと考えていました。これは、SSQが離散化の二乗誤差であるため、SSQが使用される理由をうまく説明しています。MacQueenは、アルゴリズムのアプリケーションとしてクラスター分析について言及していますが、必要に応じてクラスターを追加または削除できるアルゴリズムの修正バージョンを使用することを推奨しています(この時点で、実際には定量化以上のことが始まります)。
QUITあり-Anony-Mousse

私は最後に作るしようとしている点がすることであるベクトル量子化を見て、最近、クラスタリング研究は、データ・マイニングの視点(と多くの時間によって支配されて、だけでなく、「クラスタリング」K-手段ではないベースもうし) 。ベクトル量子化は(はるかに正確であるため)検索語がはるかに優れている場合があります。
QUITあり-Anony-Mousse

3

さまざまなクラスタリング手法が数多くあり、K平均法は1つのアプローチにすぎません。DL Dahlyがコメントしたように、EMアルゴリズムは、説明したとおりにクラスタリングに使用できます。K平均法と、クラスタリングにガウス混合モデルでEMを使用することの主な違いは、クラスターの形状です。重心は、グループ内のポイントの平均に近似しますが、K平均法は、球状クラスターはガウスカーネルで楕円体になります。

階層的クラスタリングは、まったく異なるアプローチを使用します。密度ベースのクラスタリングは、平均ベースのクラスタリングと同様のヒューリスティックによって動機付けられますが、明らかに異なる結果をもたらします。どんな平均値も考慮しないクラスタリング手法はたくさんあります。

実際には、アルゴリズムの選択は、問題ドメインと実験(つまり、何が機能するかを確認する)の関数です。


デビッドありがとう。2つのクラスター間の距離の定義が同じではないため、階層はkmeansとは異なる結果をもたらすと思います。どのメトリックを使用するか、および分散を含める必要があるかどうかを判断するのは簡単ではない場合があります。さまざまなグループの人々が、独自の問題について独自の指標を作成したようです。この方法はこのような問題に良い結果をもたらしましたが、クラスタリング方法のオプションに関する理論的なサポートが欠けていました。
lennon310 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.