クラスタリングアルゴリズムの計算の複雑さ


8

私の希望は、いくつかのクラスタリングアプローチの時間の複雑さについて説明することです。たとえば、次元空間にデータポイントがます。nm

さらに、次元のペアワイズ非類似度マトリックスが既に計算されており、ステップをすでに費やしていると仮定します。その時の時間の複雑さは何ですかΔn×nO(mn2)

  • ウォードのリンケージを使用した階層的クラスタリング(HC)
  • 完全リンケージを使用するHC
  • 平均リンケージを使用するHC
  • 単一リンケージを使用するHC
  • k -medoidアプローチ
  • 平均法k

非類似度行列がまだ計算されていない場合、何か利点はありますか?私はそれがHCのために必要であることを理解してたようkは -medoidアプローチではなく、ために --meansを?Δkk

ご協力ありがとうございました!


これはCSの質問であり、統計分析に関する質問ではありません。現在、area51.stackexchange.com / proposals / 5120 /…の提案段階にあるアルゴリズムのSEサイトに完全に適しています。
whuber

また、距離行列をエッジ加重グラフに変換し、グラフのクラスタリング手法(van DongenのMarkov CLusteringアルゴリズムまたは私の制限付き近隣検索クラスタリングアルゴリズムなど)を適用することもできますが、これは単純なアルゴリズムの質問よりもORの質問に近いです(グラフのクラスタリングアルゴリズムは一般的に密なグラフには不適切であり、距離行列をグラフに変換する目的に反することを指摘しました)
Andrew D. King

回答:


7

単一リンケージクラスタリングは、完全なグラフの最小スパニングツリーとほぼ同じで、O(n ^ 2)時間です。他の凝集クラスタリング手法のO(n ^ 2)時間については(平均的かつ完全なリンケージを含むと確信しています)、私の論文「高速階層クラスタリングと動的最近傍ペアの他のアプリケーション」、SODA '98およびJEA '00を参照してください。


6

kO(kn)kk

kk


3
なぜ「意味がない」のですか?k-meansが収束するまで(反復はクラスタリングを変更しないままにすることを意味する)、または望ましい近似比に達するまでの反復数に関する最近の論文がいくつかあります。
Jeffε

ただし、データのプロパティ、またはアルゴリズムの特定のバリアント(k-means ++メソッド、平滑化されたバリアントなど)のいずれかを想定しています。私が読んだときの質問は、より一般的なバリアントを参照しているようでした。あなたの主張はうまくいきます。
Suresh Venkat、2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.