私は機械学習が初めてであり、さまざまな機械学習アルゴリズム(デシジョンツリー、ブースティング、SVM、ニューラルネットワーク)の違いを比較対照できるデータセットを探しています
そのようなデータセットはどこにありますか?データセットを検討する際に何を探す必要がありますか?
いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか?
私は機械学習が初めてであり、さまざまな機械学習アルゴリズム(デシジョンツリー、ブースティング、SVM、ニューラルネットワーク)の違いを比較対照できるデータセットを探しています
そのようなデータセットはどこにありますか?データセットを検討する際に何を探す必要がありますか?
いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか?
回答:
Kaggleには、練習に使用できるデータセットが多数あります。
(これまで言及されていなかったことに驚いています!)
非常に貴重なリソースとなる2つのもの(他の多くのものもあります)があります。
まず、ソフトウェアに付属のサンプルデータから始めることをお勧めします。ほとんどのソフトウェア配布には、データ型を処理せずにアルゴリズムに慣れるために使用できるサンプルデータが含まれており、アルゴリズムに適した形式にデータを格闘します。アルゴリズムをゼロから構築している場合でも、同様の実装のサンプルから始めて、パフォーマンスを比較できます。
第二に、データがどのように生成され、S / N比がわかっているときに、アルゴリズムがどのように実行されるかを理解するために、合成データセットを実験することをお勧めします。
Rでは、次のコマンドを使用して、現在インストールされているパッケージ内のすべてのデータセットを一覧表示できます。
data(package = installed.packages()[, 1])
Rパッケージmlbenchには実際のデータセットがあり、アルゴリズムのパフォーマンスの調査に役立つ合成データセットを生成できます。
Pythonのscikit-learnにはサンプルデータがあり、合成/玩具データセットも生成します。
SASにはダウンロード可能なトレーニングデータセットがあり、SPSSサンプルデータはソフトウェアと共にC:\ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samplesにインストールされます。
最後に、私は野生のデータを見ます。さまざまなアルゴリズムのパフォーマンスと実際のデータセットのチューニングパラメーターを比較します。アルゴリズムに直接ドロップできるデータ型と構造を持つデータセットを見つけることはめったにないため、これには通常、より多くの作業が必要です。
野生のデータについては、以下をお勧めします。
私の意見では、あまり多くの機能を持たない小さなデータセットから始めるべきです。
1つの例は、アイリスデータセット(分類用)です。3つのクラスがあり、各クラスに合計50個のサンプルがあり、合計で150個のデータポイントがあります。このデータセットの探索に役立つ優れたリソースの1つは、Data Schoolによるこのビデオシリーズです。
チェックアウトする別のデータセットは、UCI -MLリポジトリからのWine Qualityデータセットです。12個の属性を持つ4898個のデータポイントがあります。