k-means vs k-median?


14

k-meansクラスタリングアルゴリズムとk-medianがあることを知っています。1つはクラスターの中心として平均を使用し、もう1つは中央値を使用します。私の質問は次のとおりです。いつ、どこで使用しますか?


複数の次元がある場合は、中央値を定義する(そしておそらく計算する)必要があります。各値の中央値を取得すると、回転特性が失われます。さらなる可能性はk -medoids-
ヘンリー

回答:


14

k-meansは、ユークリッド距離の二乗に等しいクラスター内分散を最小化します。

一般的に、算術平均がこれを行います。距離最適化されませが、平均からの偏差の二乗になります。

k中央値は絶対偏差を最小化します。これはマンハッタン距離に等しくなります。

一般に、軸ごとの中央値でこれを行う必要があります。絶対偏差の合計を最小化する場合(つまり、sum_i abs(x_i-y_i))を2乗したものではなく、平均値の適切な推定量にします。

正確さについての質問ではありません。それは正しさの問題です。;-)

決定木は次のとおりです。

  • 距離がユークリッド距離の2乗の場合、k-meansを使用します
  • 距離がTaxicab metricの場合、k-mediansを使用します
  • 他の距離がある場合は、 k-medoidを

いくつかの例外:私が知る限り、コサイン類似度の最大化は、L2正規化データのユークリッド距離の2乗の最小化に関連しています。したがって、データがL2正規化されている場合、そして、反復ごとに平均をl2正規化し、k-meansを再び使用できます。


多次元データの中央値の概念について一意に合意されていないため、中央値がマンハッタン距離を最小化するという声明に多少の問題があります。偽りではありませんが、多次元のコンテキストで作成することは誤解を招くような発言です。中央値には複数の多次元一般化があり、その多くはマンハッタン距離の最小化とは関係がありません。
ティムセギーン

1
これを軸ごとの中央値に変更します。私はあなたが今より幸せであることを願っています。
QUITがあります--Anony-Mousse

2

極値の影響の可能性に関する分析を行わない場合はkを使用しますが、より正確にしたい場合はk中央値を使用します


5
これらの主張を何らかの方法でサポートおよび/または説明できますか?
ジョナ14

ええ、もっと詳しく説明していただけますか?例付き?
ジャックトウェイン

2
これは、「中央値」は外れ値を許容できるが、「平均値」はそれらの外れ値に完全に影響されるためだと思います。たとえば、データポイント{1,2,3,5,78}がある場合、78が外れ値であることは明らかです。これらのデータの中央値は3で、平均は17.8です。したがって、これらのデータを要約するには、中央値が最適な方法です。
ファドワ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.