クラスタリング問題の最適な欲張り


16

一連の2次元ポイントが与えられますおよび整数K。最大の円の半径ができるだけ小さくなるように、すべてのnポイントを囲むk個の円のコレクションを見つける必要があります。換言すれば、我々は、設定された見つけなければならないC = { C 1C 2... CのK }k個のそのようなコスト関数その中心点コストC = maxのI jは Dを|P|=nkknC={c1,c2,,ck}kは最小化されます。ここで、 Dは入力点 p iと中心点 c jの間のユークリッド距離を示します。各ポイントは、頂点を k個の異なるクラスターにグループ化する最も近いクラスター中心に割り当てられます。cost(C)=maximinjD(pi,cj)Dpicjk

この問題は(離散)クラスタリング問題として知られ、NPハードです。NP完全な集合集合問題からの縮約により、ρ < 2の問題に対するρ近似アルゴリズムが存在する場合、P = NPであることが示されます。kNPNPρρ<2P=NP

最適な近似アルゴリズムは非常にシンプルで直感的です。一つの第一のピック点P P任意セットを入れ、それをCクラスタ中心の。次に、他のすべてのクラスターセンターから可能な限り離れた次のクラスターセンターを選択します。だから| C | < K、我々が繰り返しポイントを見つけるJ P距離いるD J Cは最大化に追加されるCを。一度| C | = k完了です。2pPC|C|<kjPD(j,C)C|C|=k

最適な欲張りアルゴリズムが時間で実行されることを確認するのは難しくありません。これは疑問を提起します:o n k 時間を達成できますか?どれだけ改善できるでしょうか?O(nk)o(nk)

回答:


7

この問題は、最大のボールの半径が最小になるk個のボールでポイントをカバーしたいという形で、幾何学的に見ることができます。Vk

は実際に達成するのは非常に簡単ですが、より良くすることができます。Feder and Greene、近似クラスタリングの最適アルゴリズム、1988年は、より巧妙なデータ構造を使用して Θ n log k )の実行時間を達成し、これが代数決定木モデルで最適であることをさらに示しています。O(nk)Θ(nlogk)


1

o(|V|2)

VSO(|V|)pO(|V|)SO(k|V|)


1
k|V|

oOk3
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.