非常に高次元の分類のための無料のデータセット[終了]


35

1000を超えるフィーチャ(または曲線を含む場合はサンプルポイント)を使用した分類のために無料で利用できるデータセットは何ですか

無料のデータセットに関するコミュニティWikiが既にあります: 自由に利用可能なデータサンプルの検索

しかし、ここでは、より便利使用できるより焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。

  1. データセットごとに1つの投稿
  2. データセットのセットへのリンクはありません
  3. 各データセットに関連付けられている必要あります

    • 名前(それが何であるかを把握するため)およびデータセットへのリンク(Rデータセットは、パッケージ名を付けることができます)

    • フィーチャの数(pとする)、データセットのサイズ(nとする)およびラベル/クラスの数(kとする

    • あなたの経験からの典型的なエラー率(使用されたアルゴリズムを言葉で表す)またはリテラチャーからのこのエラー率(この最後のケースでは論文をリンクします)


+1。ただし、NIPS2003のものにはtrain.labelsのみがあります。NIPS2003の論文では、「検証およびテストセットのラベルは差し控えられています」と明記されています。
デニス

ありがとう。NIPSに関するコメントは、@ mbqからの回答用です。
ロビンジラード

ここに誰かが3つ以上のクラスラベルを持つ高次元のデータセットを持っていますか?
hlin117

回答:


3

Dorothea
n = 1950
p = 100000(0.1M、半分は人為的に追加されたノイズ)
k = 2(〜10x不平衡) NIPS2003
から。


あなたは、これは100000個の機能がどのように説明できますか?トレーニングデータを見ると、各行には1行あたりおそらく2500の整数があります。
ジェレミークン

スパース配列です。整数Nは属性Nの値が1であることを意味します。


3

デクスター
n = 2600
p = 20000(10k + 53は人工ノイズ)
k = 2(バランス) NIPS2003
から。


私は理解していない...一人につき1セット?

@robin&@mbq投稿ごとに1つのデータセットを保持することをお勧めします。この人も示唆も提案するもののどの/サポートを投票で示すことができるように
ピーター・スミット

@ピーター、わかりました、あなたの考えに従います、私はそれに応じて質問を変えました。
ロビンジラール


2

前立腺(遺伝子発現配列)

  • k = 2
  • n = 48 + 52
  • p = 6033

(特に)Rパッケージを介して使用可能 データセットのspls名:前立腺

エラー率= 3/102(ここを参照)また、1/102エラー率を示す論文があると思います。これは簡単なテストケースだと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.