これがmplusでこれを行っている場合の例を示します。
3つの連続変数があり、これらに基づいてクラスターを識別したいとします。条件付き独立性(観測された変数はクラスターメンバーシップが与えられると独立している)を想定して、混合モデル(この場合はより具体的には潜在プロファイルモデル)を指定します。
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
このモデルを複数回実行し、そのたびに異なる数のクラスターを指定し、最も気に入っているソリューションを選択します(これを行うには、それ自体が膨大なトピックです)。
次にk-meansを実行するには、次のモデルを指定します。
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
したがって、クラスメンバーシップは、観測された変数の平均までの距離にのみ基づいています。他の応答で述べたように、分散はそれとは何の関係もありません。
mplusでこれを行うことの良い点は、これらがネストされたモデルであるため、2つのメソッド間の分類の不一致を比較できることに加えて、制約がより悪い適合をもたらすかどうかを直接テストできることです。ちなみに、これらのモデルは両方ともEMアルゴリズムを使用して推定できるため、実際の違いはモデルに関するものです。
3次元空間で考える場合、3は点を作成することを意味します...そして、その点を通る楕円体の3つの軸の分散を意味します。3つの分散がすべて同じ場合、球が得られます。