GMMは、無限に伸びる重なり合う丘を使用します(ただし、実際には3シグマしかカウントされません)。各ポイントはすべての丘の確率スコアを取得します。また、丘は「卵形」です[そう、対称楕円です ] 。完全な共分散行列を使用して、傾斜させることができます。
K-meansは、1つのクラスターにポイントをハード割り当てするため、他のクラスター中心のスコアは無視されます(暗黙的にゼロにリセットされます/気にしない)。丘は球状のシャボン玉です。2つのシャボン玉が接触する場所では、それらの境界が平らな(超)平面になります。多くのシャボン玉の泡を吹くときと同じように、内側の泡は平らではなく箱形です。そのため、多くの(超)球体の境界は実際に空間のボロノイ分割を形成します。2Dでは、これは六角形の最密パッキングのように漠然と見える傾向があり、ハチの巣を考えます(もちろん、ボロノイセルは六角形であるとは限りません)。K-meansの丘は丸く、傾斜しません。そのため、表現力が低下します。しかし、特に高次元では、計算がはるかに高速です。
K-meansはユークリッド距離メトリックを使用するため、寸法が同等で重みが等しいと仮定します。したがって、次元Xが0から80まで変化する時速の単位を持ち、次元Yが0から400まで変化するポンドの単位を持ち、このXY空間に円を当てはめている場合、1つの次元(およびその広がり)なるだろう、より強力な他の寸法よりも、結果を曇らせるます。これが、K平均をとるときにデータを正規化するのが慣例である理由です。
GMMとK-meansは、与えられたものに最適な近似を当てはめることによりデータをモデル化します。GMMは傾斜した卵に適合し、K-meansは傾斜した球に適合します。しかし、基礎となるデータの形状は何でもよく、スパイラルまたはピカソの絵にすることができ、各アルゴリズムは引き続き実行され、最高のショットを撮ります。結果のモデルが実際のデータのように見えるかどうかは、データを生成する基礎となる物理プロセスに依存します。(たとえば、時間遅延測定は一方的なものです。ガウス分布は適していますか?)
Rn
したがって、8x8のバイナリイメージは、最初のハイパー象限の64次元ハイパーキューブとして解釈されます。次に、アルゴリズムは幾何学的アナロジーを使用してクラスターを見つけます。K-meansを使用した距離は、64次元空間のユークリッド距離として表示されます。それを行う1つの方法です。