サンプルをランダムに5つのサブサンプルに分割すると、5つの平均はほぼ一致します。そのような近接点を最初のクラスター中心にする意味は何ですか?
多くのK-means実装では、初期クラスター中心のデフォルトの選択は反対の考えに基づいています:最も遠く離れている5つの点を見つけて、それらを初期中心にします。あなたはそれらの遠く離れた点を見つける方法は何であると尋ねるかもしれませんか?SPSSのK-meansがそのために行っていることは次のとおりです。
どのテイクk個の初期センターなどのデータセットの例(ポイント)。すべての残りのケースは、次の条件によって、それらを初期センターとして置き換える能力についてチェックされています。
- a)ケースが最も近い中心から、互いに最も近い2つの中心間の距離よりも遠い場合、ケースは、近い2つの中心を置き換えます。
- b)ケースが最も近い中心から2番目に近い中心と、後者に最も近い中心との間の距離よりも遠い場合、ケースはそれに最も近い中心を置き換えます。
条件(a)が満たされない場合、条件(b)がチェックされます。それが満たされない場合、どちらの場合もセンターになりません。そのような実行ケースの結果として、クラウド内の最初の中心となるk個のケースを取得します。このアルゴリズムの結果は、十分に堅牢ではありますが、「任意のkケース」の最初の選択やデータセット内のケースの並べ替え順序に完全には影響されません。そのため、K-meansの場合は常にそうであるように、いくつかのランダムな開始試行が依然として歓迎されます。
k-meansの一般的な初期化方法のリストで私の答えをご覧ください。ランダムなサブサンプルに分割する方法(ここで私と他の人によって批判されています)と、SPSSで使用される説明された方法もリストにあります。