私のk-meansクラスタリングアルゴリズムが次元の呪いに苦しんでいることをどうやって知るのですか？

この質問のタイトルがすべてを物語っていると思います。

clustering k-means high-dimensional

— マチュー
ソース

症状の意味を明確にしていただく必要があると思います。

— mdewey

「症状」が「テスト」の手放しバージョンである場合、おそらく、データセットのサブサンプルを取得する可能性があります-おそらくサンプルサイズの66％であり、分析を実行して（ケースではkmeans）、どのようにびくびくするかを確認します結果は次のとおりです。たとえば、特定の観測が同じクラスターに割り当てられている頻度を確認できます。その場合も、努力する価値はないかもしれません。次元の問題の可能性を心配している場合は、おそらく問題があるでしょう。次元をいくらか減らす他のクラスタリング手法を検討するかもしれません。

— generic_user

@generic_userそのコメントが回答である場合、私はそれを承認された回答として数えます:)

— mathieu

この質問は明らかに、IMOをオープンなままにするのに十分です。

— ガン-モニカの回復

多くの場合、「次元の呪い」よりも早く、k-meansのはるかに深刻な問題に遭遇します。k-means は、属性が適切であれば、128次元のデータ（SIFTカラーベクトルなど）を処理できます。ある程度、10000次元のテキストデータでも動作する場合があります。呪いの理論モデルは実際のデータには当てはまりません。より大きな問題は、比類のない機能、スパース性、および結果を視覚化して再確認できないことです。

— QUITあり-Anony-Mousse 2016年

回答:

次元性の呪いとは何かを考えるのに役立ちます。CVには、読む価値のあるいくつかの非常に優れたスレッドがあります。ここから始めましょう：「次元の呪い」を子供に説明します。

$k$ $k$

$10$

$10$ $k$ $k$

$[0,\ 1]$ $[0,\ \sqrt{\sum D}]$

$k$ $k$ K平均法の欠点を理解する方法）。

— gung-モニカの回復
ソース

既に、多様な学習のためのタグがあることがわかりました（最初に見ておくべきでした！）。知らない人のために要約すると、アイデアは、高次元のデータは空間全体の点からまばらである傾向がある一方で、その空間内のいくつかの超曲面では密である可能性があるということです。

— GeoMatt22

優れた答えの+1。固有値の部分についてもう少し詳しく説明してもらえますか？有効な次元が小さい場合、PCAを実行し、固有値が高い最初の数スコアのみを保持することをお勧めしますか？

— DataD'oh

@ DataD'oh、それは確かに1つの可能性ですが、私が言っていることは、あなたがそれをする必要がないということです。実際、データは高次元ではないため（最初の数個の固有ベクトルのみが高い固有値を持つ場合）、必ずしも何もする必要はありません。次元の呪いは適用されません。

— ガン-モニカの復活

@gung 新しい質問を投稿しました。ささいなことではないと思います。

— DataD'oh 2017

私の答えはKの手段に限定されていませんが、距離に基づく方法で次元の呪いがあるかどうかを確認してください。K-meansは距離測定に基づいています（たとえば、ユークリッド距離）

$N$ $0.5\cdot N\cdot(N-1)$

次元の呪いの問題がある場合は、これらの値が互いに非常に近いことがわかります。これは非常に直観に反するように見えます。なぜなら、すべての人がすべての人から近いか遠いことを意味し、距離の測定は基本的に役に立たないからです。

ここでは、このような直感に反する結果を示すシミュレーションをいくつか示します。すべてのフィーチャが均一に分布していて、ディメンションが多すぎる場合、すべての距離メトリックはに近いはずです。 $\frac 1 6$ $\int_{x_i=0}^1\int_{x_j=0}^1 (x_i-x_j)^2 dx_i dx_j$ runifrnorm

これは1から500までの次元のシミュレーションです。特徴は0から1までの均一な分布です。

plot(0, type="n",xlim=c(0,0.5),ylim=c(0,50))
abline(v=1/6,lty=2,col=2)
grid()

n_data=1e3
for (p in c(1:5,10,15,20,25,50,100,250,500)){
    x=matrix(runif(n_data*p),ncol=p)
    all_dist=as.vector(dist(x))^2/p
    lines(density(all_dist))
}

— ハイタオ・ドゥ
ソース

P

$P$

$\,$

— amoeba

高次元でのユークリッド収縮現象のデモンストレーションのために賛成しました。しかし、答えは、呪いによるk-meansクラスタリングの問題を示していません。苦しみは、高次元では合理的に十分に分離されたクラスター（そしてあなたのような均一なランダムデータではない）が低次元の場合と同様にうまくカバーされない可能性があることを意味します。このトピックには触れませんでした。

— ttnphns

P

$P$

@ttnphnsコメントと賛成票をありがとう。kの平均への影響を議論するために1つの段落を追加できるかどうかを確認します。

— Haitao Du 2016