10次元の点のセットでk-meansクラスタリングを実行しようとしています。キャッチ:10 ^ 10ポイントがあります。
最大のクラスター(たとえば、10〜100個のクラスター)の中心とサイズだけを探しています。各ポイントがどのクラスターになるかは気にしません。k-meansの使用は特に重要ではありません。私は同様の効果を探していますが、近似的なk-meansまたは関連するアルゴリズムは素晴らしいでしょう(ミニバッチ-SGD平均、...)。GMMはある意味でk-meansと同じ問題なので、同じサイズのデータでGMMを実行することも興味深いです。
この規模では、データをサブサンプリングしても結果はおそらく大幅に変わりません。データの1/10000番目のサンプルを使用して同じ上位10クラスターを見つける確率は非常に良好です。しかしそれでも、それは10 ^ 6ポイントの問題であり、扱いやすいものの端にあります。