k-means ++アルゴリズムと外れ値


8

外れ値が存在すると、k平均アルゴリズムが影響を受けることはよく知られています。k-means ++は、クラスター中心の初期化に有効な方法の1つです。この方法の創設者であるセルゲイヴァシルヴィツキーとデビッドアーサーがPPTを行っていましたhttp://theory.stanford.edu/~sergei/slides/BATS-Means.pdf(スライド28)これは、クラスターセンターの初期化が以下に示すように、外れ値の影響を受けません。ここに画像の説明を入力してください

k-means ++メソッドに従って、最も遠い点が初期中心である可能性が高くなります。このようにして、外れ値ポイント(右端のポイント)も初期クラスター重心でなければなりません。図の説明は何ですか?

回答:


2

はい、外れ値が選択される可能性が高くなります。しかし、さらに多くのインライアもあり、それらの1つを選択する機会もかなりあります。10倍遠い外れ値が1つあり、1つの外れ値よりもピケットになる可能性が100倍高いとしましょう。100個のインライヤがある場合、確率は約50%であり、1000個のインライヤがある場合、異常値を選択する可能性は約10%です。

しかし全体として、k-means ++はおそらく最初の中心として外れ値を選択する可能性が高く(上記の例では、ランダムは1%または0.1%で選択する)、したがって、おそらく外れ値(および実際には、多くの人々はk-means ++でほとんど改善を報告していません。それでも大きな違いはありません。すべての k-meansメソッドは同じ目的を最適化するため、影響を受けます。また、二乗和、最適化の方法とは無関係に、外れ値に敏感な目的です。問題が目的にあるため、外れ値を中心として選択すると、「より良い」結果が得られる場合があります。大域的な最適値は次のようになります。


1

これはスライド27で説明されているようです。

彼らは、古典的なk平均法に従って、最初のクラスターの重心をランダムに選択することを提案しています。しかし、2番目は異なる方法で選択されます。各点xを見て、xと最初に選択された重心との距離に等しい重みを、アルファの累乗に割り当てます。Alphaはいくつかの興味深い値を取ることができます。

alphaが0の場合、すべてのポイントの重みが1であるため、古典的なk-meansアルゴリズムが使用され、すべてのポイントが等しく選択される可能性が高くなります。

アルファが無限大(または実際には非常に大きな数)の場合は、ファーストポイント法を使用します。ファーストポイント法では、ファーストポイントの重みが非常に大きいため、ピックされる可能性が高くなります。スライド24-26に見られるように、これは異常値に敏感になります。

彼らはalphaを2に設定することを提案しています。これにより、最初に選択した重心から遠く離れた点を選択する可能性が高くなりますが、自動的に最も遠いものは選択されません。これにより、k-means ++というメソッドが得られます。これは、外れ値の影響を受けにくいという優れた特性です。


stackoverflow.com/questions/5466323/…は、k-means ++アルゴリズムの図を示します。ここで、alpha = 2はD ^ 2の重み付けであり、点から最も近い重心までの距離の2乗が取られることがわかります。これは、元の論文でうまく説明されています。ilpubs.stanford.edu:8090/778/1/2006-13.pdf。ただし、alpha = 2の場合でも、外れ値の点を最初の重心として使用する必要があります。
プラシャント2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.