クラスタリングアルゴリズムの特性を示すための2D人工データの検索


9

さまざまな分布と形式に従う2次元のデータポイント(各データポイントは2つの値(x、y)のベクトル)のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。


私はcwに投票します;)
steffen

特定のデータセットのラインで同様の質問がここに閉鎖されていますstats.stackexchange.com/questions/38928/...
霊柩車

SPSSの場合は、クラスター生成マクロを作成しました(ページにアクセスして、「クラスターの生成」を参照してください)。ただし、リングやスパイラルなどの大げさな形状は生成されません。
ttnphns 2015年

回答:


11

Rには多数のデータセットが付属しており、数行のコードで引用した例のほとんどを再現することは大したことではないようです。また、mlbenchパッケージ、特にで始まる合成データセットが役立つ場合もありますmlbench.*。以下にいくつかの図を示します。

ここに画像の説明を入力してください

CRANのクラスタータスクビューを見ると、追加の例が見つかります。たとえば、fpcパッケージには、「顔型」のクラスター化されたベンチマークデータセット用の組み込みジェネレーターがあります(rFace)。

ここに画像の説明を入力してください

同様の考慮事項がPythonにも適用され、scikit-learnを使用したクラスタリングのための興味深いベンチマークテストとデータセットが見つかります。

UCI Machine Learning Repositoryは多くのデータセットもホストしますが、選択した言語を使用して自分でデータをシミュレートする方がよいでしょう。



2

このおもちゃのクラスタリングベンチマークには、主にグラウンドトゥルースラベルが付いたARFF形式(CSVに簡単に変換できる)のさまざまなデータセットが含まれています。ベンチマークは、クラスタリングアルゴリズムの基本的な望ましいプロパティを検証する必要があります。ほとんどのデータセットは、次のようなクラスタリングペーパーから取得されます。

  • BIRCH -Zhang、Tian、Raghu Ramakrishnan、およびMiron Livny。「BIRCH:非常に大規模なデータベースのための効率的なデータクラスタリング手法。」ACM SIGMODレコード。巻。25. No. 2. ACM、1996。
  • キュア -グハ、スディプト、ラジーヴラストギ、キュソクシム。「CURE:大規模データベース向けの効率的なクラスタリングアルゴリズム。」ACM SIGMODレコード。巻。27. No. 2. ACM、1998年。
  • カメレオン -Karypis、George、Eui-Hong Han、Vipin Kumar。「カメレオン:動的モデリングを使用した階層的クラスタリング。」コンピューター32.8(1999):68-75。
  • 基本的なクラスタリング問題スイート -Ultsch、A .: SOMによるクラスタリング:U * C、Proc。自己組織化マップに関するワークショップ、パリ、フランス、(2005)、75-82ページ
  • MOCK-ハンドル、ジュリア、ジョシュアノウルズ。「多目的クラスタリングへの進化的アプローチ。」Evolutionary Computation、IEEE Transactions on 11.1(2007):56-76。
  • 堅牢なパスベースのスペクトルクラスタリング -Chang、Hong、Dit-Yan Yeung。「ロバストなパスベースのスペクトルクラスタリング。」パターン認識41.1(2008):191-203。

カリピスデータ clutoデータ


1

ELKIには、いくつかのデータセットが付属しています(単体テストも確認してください。これらには、パラメーター設定とともに、Webサイトにあるものよりも多くのものが含まれています)。

また、かなり柔軟なデータジェネレーターも含まれています。


1

これは、カスタマイズ可能なクラスタージェネレーターです。特定のクラスのデータセットのみを扱いますが、クラスターアルゴリズムの調査に確実に使用できます。

以下は、作成できるクラスターの種類の例です。

http://i.stack.imgur.com/vrCG5.png

クラスターの所属はテキストファイルに保存されます。コードはMITライセンスの下でオープンソースです。


1

このMatlabスクリプトは、クラスタリング用の2Dデータを生成します。生成されたデータがユーザーの要件内になるように、いくつかのパラメーターを受け入れます。


0

フィッシャーのアイリスのデータについて誰も言及していないとは信じられません。

私は、例として虹彩データを使用しないクラスタリング手法を見たことはないと思います。

rでは、「iris」と入力するだけでデータにアクセスできます。

これは、素敵な(そして典型的な)アイリスプロットの例です:http : //ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.