K-MeansとEMを使用したクラスタリング:それらはどのように関連していますか?


50

データのクラスタリング(教師なし学習)アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます:

k-meansはEMの変形であり、クラスターが球形であるという仮定があります。

誰かが上記の文を説明できますか?1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。

また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか?またはEMクラスタリングを使用しますか?


球状とは、各クラスターに対して同一の分散共分散行列を意味します(ガウス分布と仮定)。これは、モデルベースのクラスタリングとも呼ばれます。どのアプローチを決定論的と見なしますか?
chl

2
引用元を教えていただければ幸いです。
ttnphns

1
k-意味は、クラスターがユークリッド空間で多かれ少なかれ丸くて硬い(大きく伸びたり、曲がったり、輪になったりしていない)雲であると仮定します。それらは正規分布からのものである必要はありません。EMはそれを必要とします(または少なくとも特定の種類の分布が知られている必要があります)。
ttnphns

回答:


38

Kは

  1. 収束時に特定のクラスターにデータポイントをハードに割り当てます。
  2. 最適化時にL2ノルムを使用します(最小{Theta} L2ノルムポイントとその重心座標)。

EM

  1. Softは、ポイントをクラスターに割り当てます(したがって、任意のポイントが任意のセントロイドに属する確率を与えます)。
  2. L2ノルムには依存しませんが、期待値、つまり特定のクラスターに属するポイントの確率に基づいています。これにより、K-meansは球状クラスターに偏ります。

57

「k-meansアルゴリズム」はありません。k-means用のMacQueensアルゴリズム、k-means用のLloyd / Forgyアルゴリズム、Hartigan-Wong法などがあります...

「その」EMアルゴリズムもありません。これは、尤度を繰り返し予測してからモデルを最大化する一般的なスキームです。EMの最も一般的なバリアントは「Gaussian Mixture Modeling」(GMM)とも呼ばれ、モデルは多変量ガウス分布です。

Lloydsアルゴリズムは2つのステップで構成されると考えることができます。

  • Eステップ。各オブジェクトが重心に割り当てられ、最も可能性の高いクラスターに割り当てられます。
  • モデル(=重心)が再計算されるMステップ(=最小二乗最適化)。

...ロイドが行ったように、これらの2つのステップを繰り返すことにより、これは事実上、一般的なEMスキームのインスタンスになります。GMMとは次の点が異なります。

  • ハードパーティションを使用します。つまり、各オブジェクトは1つのクラスターにのみ割り当てられます。
  • モデルは重心のみであり、共分散または分散は考慮されません

kk

10
多くの本はlloydsアルゴリズムでk-meansと同等ですが、彼は決してk-meansと呼んでいません。MacQueenはk-meansという名前を導入しました。申し訳ありません:多くの本はここで間違った命名を使用しています。k-meansが問題であり、一般的な解決策は1つだけです。実際、RはデフォルトでHartigan-Wongを実行してkmeansを解決します。
アノニムース

4

これがmplusでこれを行っている場合の例を示します。

3つの連続変数があり、これらに基づいてクラスターを識別したいとします。条件付き独立性(観測された変数はクラスターメンバーシップが与えられると独立している)を想定して、混合モデル(この場合はより具体的には潜在プロファイルモデル)を指定します。

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

このモデルを複数回実行し、そのたびに異なる数のクラスターを指定し、最も気に入っているソリューションを選択します(これを行うには、それ自体が膨大なトピックです)。

次にk-meansを実行するには、次のモデルを指定します。

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

したがって、クラスメンバーシップは、観測された変数の平均までの距離にのみ基づいています。他の応答で述べたように、分散はそれとは何の関係もありません。

mplusでこれを行うことの良い点は、これらがネストされたモデルであるため、2つのメソッド間の分類の不一致を比較できることに加えて、制約がより悪い適合をもたらすかどうかを直接テストできることです。ちなみに、これらのモデルは両方ともEMアルゴリズムを使用して推定できるため、実際の違いはモデルに関するものです。

3次元空間で考える場合、3は点を作成することを意味します...そして、その点を通る楕円体の3つの軸の分散を意味します。3つの分散がすべて同じ場合、球が得られます。


この例をありがとう。いくつかのアイデアを修正するのに大いに役立ちます。
ミーナ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.