定義により、kmeansは、ポイントが割り当てられているクラスターに最も近い重心があることを確認する必要があります。そのため、クラスターに含まれる確率は明確に定義されていません。
前述のように、GMM-EMクラスタリングは、各クラスターに存在する可能性の推定値を提供し、明らかにオプションです。
ただし、k-meansの球形の構成要素に留まりたい場合は、各ポイントのクラスタリングに「良いスコア」を割り当てたい場合、おそらくより単純な仮定/公式を使用できます。これは、母集団のサブセットをサンプリングしていて、サンプルの各ポイントに割り当てられているクラスターをどれだけ信頼するかを決定する場合に役立ちます。
単純な「スコアリング」スキームの1つは、最初に、k個の重心のそれぞれに対するクラスタリングで使用されるすべての次元にわたってSQRT zスコア距離を計算することです。次に、k重心のそれぞれについてからを想定すると、スコアを割り当てることができますd1dk
score=1di(n−1)/∑i=1k1di(n−1)
ここで、はクラスタリングに使用される次元の数です。n
なぜ乗なのですか?重力が2乗距離で消散する重力または電磁気の3次元空間で何が起こるかを考えます。同様に、k-meansはn次元の球状クラスターを作成します。したがって、各クラスターの重心を「エネルギー」の点源と見なすと、dがdだけ乗して増加するときに散逸します。結果として、任意のランダムポイントで、任意のクラスターの重心からの「エネルギー」の強度は、に比例しますここで、(n−1)1d(n−1)1di(n−1)di重心までの距離です。したがって、0と1の間のスケールであるこの良さのスコアを計算し、問題の次元と構造に基づいて、k平均アルゴリズムがどの点でどのように「混乱」しているのかを知ることができます。