5
K-meansの欠点を理解する方法
K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。 したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う: k-meansは、各属性(変数)の分布の分散が球形であると仮定します。 すべての変数の分散は同じです。 すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。 これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。 この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。