基本的な機械学習アルゴリズムを学習するための優れたデータセットは何ですか?その理由は何ですか?


19

私は機械学習が初めてであり、さまざまな機械学習アルゴリズム(デシジョンツリー、ブースティング、SVM、ニューラルネットワーク)の違いを比較対照できるデータセットを探しています

そのようなデータセットはどこにありますか?データセットを検討する際に何を探す必要がありますか?

いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか?


6
この質問はopendata.stackexchange.comには向いていないのだろうか...データセットについては、ほとんどの教科書がそのようなデータセットについて言及し、それらを利用可能にしています。archive.ics.uci.edu/ml/datasets.htmlも参照できます。もちろん、別の質問は、学習のためにいくつかのデータセットを「良い」と「悪い」ものにするものです-それは興味深い質問です。
ティム

ElemStatLearnなどのデータセットがCRANにパッケージとしてあります。
kjetil bハルヴォルセン

2
@Tim この質問には教育的な側面があるため(たとえば、学習目的の「良い」データセットの一例は、異なるアルゴリズムが非常に異なる結果をもたらす場所を示すものです)、OpenDataよりもCVに適していると思います。
シルバーフィッシュ


@Silverfish:これはメタで議論されています- 「データセットに関する質問」:可能な例外?-そして、あなたの見方には一般的な同意があったようです。しかし、私はまだこれを考えていますq。かなり広い- 自由に利用可能なデータサンプルを見つけることとそれを明確に区別するものは何ですか?
スコッチ-モニカの復職

回答:



11

Kaggleには、練習に使用できるデータセットが多数あります。

(これまで言及されていなかったことに驚いています!)

非常に貴重なリソースとなる2つのもの(他の多くのものもあります)があります。

  • 多くのクリーンなデータセット。ノイズフリーデータセットは実際のデータセットを実際に代表するものではありませんが、MLアルゴリズムを展開する目的に特に適しています。
  • 同じデータセットのほかのMLモデルを表示することもできます。これは、途中でいくつかのハックを拾う楽しい方法です。言うまでもなく、あなたが最高の開業医から学ぶことで得られる類の露出は、他の何でもそうであるように、非常に役立ちます。

1
膨大な種類のデータセットに加えて、各チャレンジのフォーラムは、コード例とともにテクニックやトリックをピックアップするための貴重なリソースであるため、これが本当に一番の答えになるはずです。
アレックスR.

2

まず、ソフトウェアに付属のサンプルデータから始めることをお勧めします。ほとんどのソフトウェア配布には、データ型を処理せずにアルゴリズムに慣れるために使用できるサンプルデータが含まれており、アルゴリズムに適した形式にデータを格闘します。アルゴリズムをゼロから構築している場合でも、同様の実装のサンプルから始めて、パフォーマンスを比較できます。

第二に、データがどのように生成され、S / N比がわかっているときに、アルゴリズムがどのように実行されるかを理解するために、合成データセットを実験することをお勧めします。

Rでは、次のコマンドを使用して、現在インストールされているパッケージ内のすべてのデータセットを一覧表示できます。

data(package = installed.packages()[, 1])

Rパッケージmlbenchには実際のデータセットがあり、アルゴリズムのパフォーマンスの調査に役立つ合成データセットを生成できます。

Pythonのscikit-learnにはサンプルデータがあり、合成/玩具データセットも生成します。

SASにはダウンロード可能なトレーニングデータセットがあり、SPSSサンプルデータはソフトウェアと共にC:\ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samplesにインストールされます。

最後に、私は野生のデータを見ます。さまざまなアルゴリズムのパフォーマンスと実際のデータセットのチューニングパラメーターを比較します。アルゴリズムに直接ドロップできるデータ型と構造を持つデータセットを見つけることはめったにないため、これには通常、より多くの作業が必要です。

野生のデータについては、以下をお勧めします。

redditのデータセットアーカイブ

KDnuggetのリスト


1
Rがなく、これらのデータセットにアクセスするためだけにRをダウンロードしたくない場合は、データセットと説明がオンライン利用できます
GUNG -復活モニカ

0

アイリスデータセットを手にダウン。ベースRにもあります。


1
質問の実質的な部分に回答してください:「...また、それらを優れたデータセットにする理由を教えてください」
whuber

0

私の意見では、あまり多くの機能を持たない小さなデータセットから始めるべきです。

1つの例は、アイリスデータセット(分類用)です。3つのクラスがあり、各クラスに合計50個のサンプルがあり、合計で150個のデータポイントがあります。このデータセットの探索に役立つ優れたリソースの1つは、Data Schoolによるこのビデオシリーズです。

チェックアウトする別のデータセットは、UCI -MLリポジトリからのWine Qualityデータセットです。12個の属性を持つ4898個のデータポイントがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.