K-meansの初期シード(クラスターセンター)を選択するための最新の技術に興味があります。
グーグルは2つの一般的な選択肢につながります。
- 初期シードのランダム選択、および
- KMeans ++選択手法の使用:Arthur&Vassilvitskii 2006 k-means ++:注意深いシードの利点
ここで誰もが知っている他の有望な方法はありますか?
K-meansの初期シード(クラスターセンター)を選択するための最新の技術に興味があります。
グーグルは2つの一般的な選択肢につながります。
ここで誰もが知っている他の有望な方法はありますか?
回答:
ここまでの「クラスタリング」コレクションにある、自分の関数(SPSSのマクロ)からオプションのリストをコピーして貼り付けてください。!kmini
初期クラスター中心を作成または選択する方法。選択してください:
k
重複しない、メンバーシップ、グループによってランダムに分割され、これらのグループの重心が初期中心として指定されます。したがって、中心は計算され、既存のデータセットのケースから選択されません。この方法では、互いに近く、データの一般的な重心に近い中心が生成されます。k
データの異なるケースがランダムに選択され、初期の中心になります。k
ケースはセンターとして取得され、次に、データセットの残りのケースの実行中に、センター間で徐々に置換が行われます。置換の目的はk
、変数空間で互いに最も離れた端点で取得することです。データクラウドの周辺の位置を占めるこれらのポイント(ケース)は、生成された初期中心です。(この方法は、SPSS k-meansプロシージャでデフォルトとして使用されますQUICK CLUSTER
。詳細は、SPSSアルゴリズムで参照してください。ここでも説明されています)。k
最も代表的な「代理」事件。1番目の中心は、一般的なデータの重心に最も近いケースと見なされます。次に、残りの中心がデータポイントから選択され、各ポイントが、後者のそれぞれのポイントよりもポイントのセットに近いかどうか(および2乗のユークリッド距離でどれだけか)が考慮されます。既存のセンターのいずれかです。つまり、各ポイントは、すでに収集されたセンターではまだ十分に表現されていないいくつかのポイントグループを表す候補として試験されます。この点で最も代表的なポイントが次のセンターとして選択されます。(Kaufman、L. Rousseeuw、PJ Finding groups in data:introduction to cluster analysis。、1990.参照:Pena、JM et al。経験的な比較の4つの初期化方法のK平均アルゴリズム20(10)、1999、k
、ランダムなユニフォームから「ランダムよりランダムではない」ポイントを生成する、ランダムと貪欲の間の良い方法もあります。その方法の潜在的な理論的基礎を参照してください ]k
、それによって生成されるクラスターの平均は、k平均法の初期シードです。Wardは、k-meansと共通の目標を共有するため、他の階層的クラスタリング手法よりも望ましいです。メソッドRGC、RP、SIMFP、KMPPは乱数に依存し、実行ごとに結果が変わる可能性があります。
メソッドRUNFPは、データセット内の大文字と小文字の順序に影響されます。しかし、メソッドGREPはそうではありません(データに同じケース、タイ、多くのケースがある場合を除いて)。特にGREの場合、データ内のケース数()に比べて相対的に大きいと、メソッドGREPはすべてのk
センターを収集できないk
ことがあります。[マクロは、データがその方法でセンターを収集することを許可しない場合に通知します]。メソッドGREPは最も遅いものであり、[私の実装では]すべてのケース間の距離の行列を計算するため、数万または数百万のケースがある場合は適していません。ただし、データのランダムなサブサンプルでそれを行うことができます。n
k>n/2
k
これまでのところ、問題の広範なシミュレーション調査を行っていないため、現在、どの方法が「より良い」か、どのような状況であるかについては議論していません。私の非常に予備的で表面的な印象は、GREPは特に価値がある(しかしそれは高価である)こと、そして本当に安い方法がまだ十分に競争力がある場合は、ランダムなkポイント(RP)がまともな選択であることです。
私がこれについて包括的な文献レビューを最後に行ったのは、確かにほぼ20年前でしたが、2つの主な推奨事項は次のとおりです。
ビッグデータアプリケーションでは、サブサンプルに適用することはできますが、ウォードの方法はあまりうまく機能しません。
私はいくつかのシミュレーションを行いましたが、これは出版に出回ることはありませんでした。
私がこれから取った主なポイントは、SPSSアルゴリズムは驚くほど優れているということですが、リソースがある場合、1000以上のランダムな開始点が適しています。
ttnphnsの命名法を使用して、RGC、RP、およびKMPPを以下でテストしました。
結果の中心が互いに非常に近いため、RGCはお勧めしません。多くのポイントの平均は、グローバル平均(数値の大きい法則)に近いです。これにより、収束が大幅に遅くなる可能性があります。クラスターが個別化し始めるまでに時間がかかります。
RPは一般的に優れており、最初の簡単な選択として推奨されます。
KMPPは非常に人気があり、小さな次元で非常にうまく機能します。RPと比較すると、極小値で終わる可能性が低くなる傾向があります。
ただし、大きなデータセット(大きな次元のテキストドキュメントからの単語のバッグである100万ポイント)で作業していたとき、RPはわずかに少ない反復で終了したという意味でKMPPをわずかに上回りました。びっくりしました。大きなデータセット/高次元では、グローバルミニマムへの収束は不可能です。「ローカルミニマムの良さ」=「最終SODの小ささ」として品質を測定します。どちらの方法も同じ品質でした。
レプリケーションを使用して品質を向上させる場合は、ランダム化された方法を使用することが重要です。