回答:
私の知る限り、クラスターの「平均」と単一クラスターの重心は同じものですが、「重心」という用語は多変量データを扱う場合の「平均」よりも少し正確かもしれません。
重心を見つけるために、各次元の点の位置の(算術)平均を個別に計算します。たとえば、次のポイントがある場合:
重心は((-1 + 0 + 1)/ 3、(10 + 5 + 20)/ 3、(3 + 2 + 10)/ 3)に位置し、(0、11 2/3、 5)。(注:重心は、元のデータポイントの1つである必要はなく、まれにしかありません)
重心は、物理的な解釈に基づいて、重心または重心とも呼ばれることもあります(ポイントによって定義されるオブジェクトの重心です)。平均と同様に、重心の位置は、他のポイントからの二乗和距離を最小化します。
関連するアイデアはmedoidです。これは、他のすべてのデータポイントと「最も異なる」データポイントです。重心とは異なり、medoidは元のポイントの1つでなければなりません。また、中央値に類似しているが、多変量データの幾何学的中央値にも興味があるかもしれません。これらはどちらも重心とは異なります。
ただし、Gabeが彼の答えで指摘しているように、クラスターを比較する場合、「重心距離」と「平均距離」には違いがあります。クラスタと間の重心距離は、単にと間の距離です。平均距離は、各クラスタ内のポイント間の平均ペアワイズ距離を求めることによって計算されます。つまり、クラスターすべてのポイント、、、...を計算しB セントロイド(A )セントロイド(B )a i A dist (a i、b 1)dist (a i、b 2)dist (a i、b n) それらをすべて平均します。
このビデオを見る上記の答えが間違っている可能性があります:https://www.youtube.com/watch?v=VMyXc3SiEqsそれはその平均がクラスタ1の要素と、クラスター2の間の距離のすべての組み合わせ合算ようだ- nが^ 2つの距離を足し合わせてから、n ^ 2で割って平均します。
重心法は、最初にそれ自体内の各クラスターの平均を計算します。次に、それらの平均点間の1つの距離を計算します。