私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。
人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか?または、ランダムにサンプルをランダムに選択しますか?データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか?
これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか?または、反復の数は常にデータサイズとともに増加しますか?
収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか?
number of iterations always grow with the data size
必ずしも。