k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか?


21

GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。

この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない(または少なくとも使用に適していない)ことを意味しているのだろうか?たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合(そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合)?

私はこれについて少し混乱していますが、どんな考えでも感謝します。


2
非正規データでk-meansクラスタリングを実行するのが有効かどうかを尋ねている場合、データが連続していると想定される場合、答えはyesです。バイナリデータは連続していません。一部の人々は、このようなデータに対してk-meansを実行します。これは、ヒューリスティックに許容されますが、理論的には無効です。
ttnphns

k-meansの確率モデルはないため、無効化する正規性の仮定はありません。(それがうまくいくとは限らない)
推測

1
@conjectures Hmm ...しかし、k-menasはGMMと同等であり、GMMは通常と仮定します。
eddie.xie

@ttnphnsご回答ありがとうございます!ですから、TF-IDFを使用してテキストをスコアに変換し、連続させると、適用できて有効ですか?
eddie.xie

GMMは数ガウス分布の混合(合計)であり、十分な混合が与えられればどんな分布でも表現できるはずだと突然思います。したがって、GMMとK-meansが同等であっても、GMMはどんな分布でも表現できるため、K-meansが非正規データを使用できないことを意味しません。あれは正しいですか?
eddie.xie

回答:


20

典型的なEM GMMの状況では、分散と共分散を考慮します。これはk-meansでは行われません。

しかし実際、k-meansの一般的なヒューリスティックの1つ(注:k-meansはアルゴリズムではなく問題です)-Lloydアルゴリズム-は、本質的に重心モデル(分散なし)とハード割り当てを使用するEMアルゴリズムです。

k-meansスタイルのクラスタリング(分散最小化)を行うとき、

  • WCSS(クラスター内の平方和)分散寄与= 2乗ユークリッド距離であるため、偶然2乗ユークリッド距離を最小化
  • sqrt関数は単調であるため、オブジェクトをユークリッド距離で同時に最も近いクラスターに割り当てます(平均はユークリッド距離を最適化せ、WCSS関数を最適化することに注意してください)
  • 重心のみを使用してクラスターを表します
  • ボロノイセル型クラスター、つまりポリゴンを取得する
  • 球状クラスターで最適に機能します

k平均目的関数は、このように定式化することができる。

argminS=1kバツjSd=1Dバツjdμd2
S={S1Sk}kDバツjdjd

一般的に、k-meansは球状のクラスターを想定していると言われています。また、k-meansクラスターはボロノイセル、つまり球体ではないことも一般に認められています。両方とも正しく、両方とも間違っています。まず、クラスターは完全なボロノイセルではなく、その中の既知のオブジェクトのみです。あるオブジェクトがあるとアルゴリズムの結果に影響するため、クラスター間のデッドスペースをいずれかのクラスターの一部と見なす必要はありません。しかし、ユークリッド距離が球形であるという理由だけで、それを「球形」と呼ぶことはあまり良くありません。K-meansはユークリッド距離を気にしません。すべては、分散を最小化するためのヒューリスティックです。そして、それは実際、k-meansであると考えるべきものです:分散最小化。


より正確にするために、表現の一部を改良することをお勧めします。たとえば、何minimize squared euclidean distanceまたはminimize the variances?「sum of」や「pooled」などの言葉がなければなりません。クラスターが2つ以上あるからですよね。
ttnphns

ところで、k-meansは、d ^ 2を各クラスター内のオブジェクトの数で割ったクラスター内プール合計を最小化coincidentally minimize Euclidean distance, because the sqrt function is monotoneするので、正確に言うと、ポイントは正しくありません。
ttnphns

収束を証明できる適切な目的関数は、WCSS、クラスター内の平方和です。実際、ユークリッド距離は最小化されませんが、ユークリッド距離に最も近い重心距離は、WCSSの最適な割り当てでもあります。
アノニムース

あなたの言葉遣いは残念ながら疑わしいままです。フレーズはminimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance どういう意味ですか?あなたは「二乗D'sの言っているオブジェクト間のクラスタ内の偏差のWCSSが最小化されますので、最小限に抑えます」、または単に「偏差のWCSSが最小取得、どの-偏差- ある性質上、ユークリッド距離は」?それとも他に?
ttnphns

1
明らかに、データのセントロイドモデルが必要な場合にのみ、k-meansが適切な選択です。ペアワイズ距離を最適化する場合は、階層クラスタリングを使用します。
アノニムース

8

GMMは、無限に伸びる重なり合う丘を使用します(ただし、実際には3シグマしかカウントされません)。各ポイントはすべての丘の確率スコアを取得します。また、丘は「卵形」です[そう、対称楕円です ] 。完全な共分散行列を使用して、傾斜させることができます。

K-meansは、1つのクラスターにポイントをハード割り当てするため、他のクラスター中心のスコアは無視されます(暗黙的にゼロにリセットされます/気にしない)。丘は球状のシャボン玉です。2つのシャボン玉が接触する場所では、それらの境界が平らな(超)平面になります。多くのシャボン玉の泡を吹くときと同じように、内側の泡は平らではなく箱形です。そのため、多くの(超)球体の境界は実際に空間のボロノイ分割を形成します。2Dでは、これは六角形の最密パッキングのように漠然と見える傾向があり、ハチの巣を考えます(もちろん、ボロノイセルは六角形であるとは限りません)。K-meansの丘は丸く、傾斜しません。そのため、表現力が低下します。しかし、特に高次元では、計算がはるかに高速です。

K-meansはユークリッド距離メトリックを使用するため、寸法が同等で重みが等しいと仮定します。したがって、次元Xが0から80まで変化する時速の単位を持ち、次元Yが0から400まで変化するポンドの単位を持ち、このXY空間に円を当てはめている場合、1つの次元(およびその広がり)なるだろう、より強力な他の寸法よりも、結果を曇らせるます。これが、K平均をとるときにデータを正規化するのが慣例である理由です。

GMMとK-meansは、与えられたものに最適な近似を当てはめることによりデータをモデル化します。GMMは傾斜した卵に適合し、K-meansは傾斜した球に適合します。しかし、基礎となるデータの形状は何でもよく、スパイラルまたはピカソの絵にすることができ、各アルゴリズムは引き続き実行され、最高のショットを撮ります。結果のモデルが実際のデータのように見えるかどうかは、データを生成する基礎となる物理プロセスに依存します。(たとえば、時間遅延測定は一方的なものです。ガウス分布は適していますか?)

Rn

したがって、8x8のバイナリイメージは、最初のハイパー象限の64次元ハイパーキューブとして解釈されます。次に、アルゴリズムは幾何学的アナロジーを使用してクラスターを見つけます。K-meansを使用した距離は、64次元空間のユークリッド距離として表示されます。それを行う1つの方法です。


両方のアルゴリズムは、暗黙的に空間軸がすべての点で等しく密であると仮定しているため、指数関数的、対数的、または正弦波状に変化するデータのフィッティングは、通常、データをほぼ線形に変化する領域に再マッピングすることで恩恵を受けます。
ドラゴンロード
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.