この質問のタイトルがすべてを物語っていると思います。
3
症状の意味を明確にしていただく必要があると思います。
—
mdewey
「症状」が「テスト」の手放しバージョンである場合、おそらく、データセットのサブサンプルを取得する可能性があります-おそらくサンプルサイズの66%であり、分析を実行して(ケースではkmeans)、どのようにびくびくするかを確認します結果は次のとおりです。たとえば、特定の観測が同じクラスターに割り当てられている頻度を確認できます。その場合も、努力する価値はないかもしれません。次元の問題の可能性を心配している場合は、おそらく問題があるでしょう。次元をいくらか減らす他のクラスタリング手法を検討するかもしれません。
—
generic_user
@generic_userそのコメントが回答である場合、私はそれを承認された回答として数えます:)
—
mathieu
この質問は明らかに、IMOをオープンなままにするのに十分です。
—
ガン-モニカの回復
多くの場合、「次元の呪い」よりも早く、k-meansのはるかに深刻な問題に遭遇します。k-means は、属性が適切であれば、128次元のデータ(SIFTカラーベクトルなど)を処理できます。ある程度、10000次元のテキストデータでも動作する場合があります。呪いの理論モデルは実際のデータには当てはまりません。より大きな問題は、比類のない機能、スパース性、および結果を視覚化して再確認できないことです。
—
QUITあり-Anony-Mousse 2016年