さまざまな分布と形式に従う2次元のデータポイント(各データポイントは2つの値(x、y)のベクトル)のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。
さまざまな分布と形式に従う2次元のデータポイント(各データポイントは2つの値(x、y)のベクトル)のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。
回答:
Rには多数のデータセットが付属しており、数行のコードで引用した例のほとんどを再現することは大したことではないようです。また、mlbenchパッケージ、特にで始まる合成データセットが役立つ場合もありますmlbench.*
。以下にいくつかの図を示します。
CRANのクラスタータスクビューを見ると、追加の例が見つかります。たとえば、fpcパッケージには、「顔型」のクラスター化されたベンチマークデータセット用の組み込みジェネレーターがあります(rFace
)。
同様の考慮事項がPythonにも適用され、scikit-learnを使用したクラスタリングのための興味深いベンチマークテストとデータセットが見つかります。
UCI Machine Learning Repositoryは多くのデータセットもホストしますが、選択した言語を使用して自分でデータをシミュレートする方がよいでしょう。
このタスク用に設計されたいくつかのデータセットを次に示します。
このおもちゃのクラスタリングベンチマークには、主にグラウンドトゥルースラベルが付いたARFF形式(CSVに簡単に変換できる)のさまざまなデータセットが含まれています。ベンチマークは、クラスタリングアルゴリズムの基本的な望ましいプロパティを検証する必要があります。ほとんどのデータセットは、次のようなクラスタリングペーパーから取得されます。
ELKIには、いくつかのデータセットが付属しています(単体テストも確認してください。これらには、パラメーター設定とともに、Webサイトにあるものよりも多くのものが含まれています)。
また、かなり柔軟なデータジェネレーターも含まれています。
これは、カスタマイズ可能なクラスタージェネレーターです。特定のクラスのデータセットのみを扱いますが、クラスターアルゴリズムの調査に確実に使用できます。
以下は、作成できるクラスターの種類の例です。
クラスターの所属はテキストファイルに保存されます。コードはMITライセンスの下でオープンソースです。
このMatlabスクリプトは、クラスタリング用の2Dデータを生成します。生成されたデータがユーザーの要件内になるように、いくつかのパラメーターを受け入れます。
フィッシャーのアイリスのデータについて誰も言及していないとは信じられません。
私は、例として虹彩データを使用しないクラスタリング手法を見たことはないと思います。
rでは、「iris」と入力するだけでデータにアクセスできます。
これは、素敵な(そして典型的な)アイリスプロットの例です:http : //ygc.name/2011/12/24/ml-class-7-kmeans-clustering/