重心を見つけることは、平均を見つけることとどう違うのですか?


26

階層クラスタリングを実行する場合、多くのメトリックを使用してクラスター間の距離を測定できます。このような2つのメトリックは、クラスター内の重心とデータポイントの平均の計算を意味します。

平均と重心の違いは何ですか?これらはクラスター内の同じポイントではありませんか?

回答:


38

私の知る限り、クラスターの「平均」と単一クラスターの重心は同じものですが、「重心」という用語は多変量データを扱う場合の「平均」よりも少し正確かもしれません。

重心を見つけるために、各次元の点の位置の(算術)平均を個別に計算します。たとえば、次のポイントがある場合:

  • (-1、10、3)、
  • (0、5、2)、および
  • (1、20、10)、

重心は((-1 + 0 + 1)/ 3、(10 + 5 + 20)/ 3、(3 + 2 + 10)/ 3)に位置し、(0、11 2/3、 5)。(注:重心は、元のデータポイントの1つである必要はなく、まれにしかありません)

重心は、物理的な解釈に基づいて、重心または重心とも呼ばれることもあります(ポイントによって定義されるオブジェクトの重心です)。平均と同様に、重心の位置は、他のポイントからの二乗和距離を最小化します。

関連するアイデアはmedoidです。これは、他のすべてのデータポイントと「最も異なる」データポイントです。重心とは異なり、medoidは元のポイントの1つでなければなりません。また、中央値に類似しているが、多変量データの幾何学的中央値にも興味があるかもしれません。これらはどちらも重心とは異なります。

ただし、Gabeが彼の答えで指摘しているようにクラスターを比較する場合、「重心距離」と「平均距離」には違いがあります。クラスタと間の重心距離は、単にと間の距離です。平均距離は、各クラスタ内のポイント間の平均ペアワイズ距離を求めることによって計算されます。つまり、クラスターすべてのポイント、、、...を計算しB セントロイドA セントロイドB a i A dist a ib 1dist a ib 2dist a ib nAB重心A重心BaAdistab1distab2distabn それらをすべて平均します。


どのような条件下で、重心とmedoidは同一ですか?また、なぜ重心はポイントのセットを適切に代表するのでしょうか?
ライクマディパック

@dkr、これを新しい質問として尋ねて、より多くの(そしてより詳細な)回答を得ることができます。とはいえ、違いは次の2つに要約されます。1)最小化するもの(重心の場合は2乗距離/ L2ノルム、平均の場合は絶対距離/ L1ノルム)2)出力を任意のポイント(重心)にするかデータセット(mediod)に含まれている必要があります。それらが同じになる場合を想像できますが、一般的には同じではありません。重心は、平均が同じ理由(ポイントまでの最小の平方和距離)と同じ理由で「良好」であり、同様の欠点もあります(たとえば、外れ値に対してロバストではありません)。
マットクラウス

4

このビデオを見る上記の答えが間違っている可能性があります:https://www.youtube.com/watch?v=VMyXc3SiEqsそれはその平均がクラスタ1の要素と、クラスター2の間の距離のすべての組み合わせ合算ようだ- nが^ 2つの距離を足し合わせてから、n ^ 2で割って平均します。

重心法は、最初にそれ自体内の各クラスターの平均を計算します。次に、それらの平均点間の1つの距離を計算します。


1
こんにちはGabe!ビデオのこの部分について話していると思いますか?私の知る限り、1つのクラスターの重心と平均は同じですが、指摘したように、2つのクラスター間の重心距離と平均距離は異なる尺度です。OPは前者について質問していると思いましたが、後者についても少し編集しました。それを指摘してくれてありがとう(+1)、Cross Validatedへようこそ!
マットクラウス

-1

重心はクラスター内のデータポイントの平均で、重心はデータセットに存在する必要はありませんが、medoidは重心に近いデータポイントであり、medoidは元のデータに存在する必要があります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.