K平均とオンラインK平均

15

K-meansはクラスタリング用のよく知られたアルゴリズムですが、そのようなアルゴリズムのオンラインバリエーションもあります（オンラインK-means）。これらのアプローチの長所と短所は何ですか？また、それぞれをいつ優先すべきですか？

clustering algorithms k-means

— ルーベンス
ソース

11

オンラインk-means（より一般的には順次k-meansとして知られています）と従来のk-meansは非常に似ています。違いは、オンラインk-meansを使用すると、新しいデータを受信したときにモデルを更新できることです。

オンラインk-meansは、データを1つずつ（またはチャンクで）受信することが予想される場合に使用する必要があります。これにより、モデルに関する詳細情報が得られたら、モデルを更新できます。この方法の欠点は、データを受信する順序に依存することです（ref）。

— クリストファー・ルーデン
ソース

7

オリジナルのMacQueen k-means出版物（最初に「kmeans」という名前を使用した）は、オンラインアルゴリズムです。

マックイーン、JB（1967）。「多変量観測の分類と分析のためのいくつかの方法」。第5回バークレー数学統計と確率に関するシンポジウムの議事録1.カリフォルニア大学出版局。pp。281–297

各ポイントを割り当てた後、単純な加重平均式を使用して平均がインクリメンタルに更新されます（以前の平均がn個の観測値だった場合、古い平均はnで重み付けされ、新しい観測値は1で重み付けされます）。

私が知る限り、データのみを1回パスすることを意図していましたが、収束するまでポイントを再割り当てするために何度も簡単に繰り返すことができます。

データがシャッフルされる場合、MacQueenは通常、ロイズよりも少ない反復回数で収束します（平均がより速く更新されるためです！）。順序付けされたデータでは、問題が発生する可能性があります。欠点として、各オブジェクトに対してより多くの計算が必要になるため、各反復に少し時間がかかります（明らかに追加の数学演算）。

— QUIT--Anony-Mousseを持っています
ソース