k-means || 別名スケーラブルなK-Means ++
バーマン・バーマニ他 k-means ||が導入されました。これはk-means ++の高速バージョンです。 このアルゴリズムは、彼らの論文の 4ページ、Bahmani、B.、Moseley、B.、Vattani、A.、Kumar、R.、およびVassilvitskii、S.(2012)から取られています。スケーラブルなk-means ++。VLDB基金の議事録、5(7)、622-633。 残念ながら、これらの派手なギリシャ文字は理解できないので、これがどのように機能するかを理解するのに助けが必要です。私が理解している限り、このアルゴリズムはk-means ++の改良バージョンであり、オーバーサンプリングを使用して反復回数を減らします。k-means++は回反復する必要があります(kは目的のクラスターの数です)。kkkkkk k-means ++がどのように機能するかの具体例を通して非常に良い説明を得たので、同じ例を再び使用します。 例 次のデータセットがあります。 (7,1)、(3,4)、(1,5)、(5,8)、(1,3)、(7,8)、(8,2)、(5,9)、(8 、0) (必要なクラスターの数)k=3k=3k = 3 (オーバーサンプリング係数)ℓ=2ℓ=2\ell = 2 私はそれを計算し始めましたが、私はそれが正しいかどうかわからず、ステップ2、4、または5については知りません。 ステップ1:Xからランダムに点を一様にサンプリングするC←C←\mathcal{C} \leftarrowXXX のは、最初の重心があるとしましょう(k平均++と同じ)(8,0)(8,0)(8,0) ステップ2:ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) わからない ステップ3: d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 各ポイントに最も近い中心までの距離の2乗を計算します。このケースでは、これまでのところ唯一のセンターを持っている。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = [4, 81, 148, …