自分の機械学習実装のテストに役立つデータセットはどこにありますか？[閉まっている]

現在、自分でいくつかの機械学習アルゴリズムを実装しようとしています。それらの多くはデバッグが難しいという厄介な特性を持っています。いくつかのバグはプログラムをクラッシュさせませんが、意図したとおりに機能せず、アルゴリズムがより弱い結果をもたらすように見えます。

いくつかの小さなデータセットがあり、「アルゴリズムXがY回の反復で機能し、このデータセットで結果Zがあった」という追加情報があった場合など、実装への自信を高める何らかの方法が欲しいのですが、それは非常に役立ちます。そのようなデータセットについて聞いたことがありますか？

dataset

— sjm.majewski
ソース

この質問を調査するにあたり、どのような調査を行いましたか？一見すると、これらのアルゴリズムを見つけるために使用している文献にはサンプルデータセットがぎっしり詰まっていると思われるかもしれません。

— whuber

まあ、私はMLのほとんどを大学のコース、Coursa、インターネット上の講義ビデオ、および特定のトピックについて読んだいくつかの論文を知っています。どこにでも多くのサンプルデータセットがあることはわかっていますが、それらに対してさまざまなMLアルゴリズムがどのように実行されたかについての情報を探しているので、自分の実装を検証できます。

— sjm.majewski

ICMLには、標準化されたデータセットの問題に関する優れた論文が最近ありました。これにより、現実世界の問題と現実世界の問題に伴う混乱について、あまり考えずに済むようになります。個人的に私が実際のデータを使い始めたとき、開業医としての私のスキルは開花しました。だから、UCIのようなものを踏み台やテストとして使用するのをやめさせないが、賞品には目が離せない！

— Patrick Caldon、2012

実行している機械学習のタイプを指定する必要があります。バイナリ分類データセットは、関数近似（回帰）データセットとは異なります。

— Douglas Zare

stackoverflow.com/questions/3272806/…–

— Abhishek Gupta

回答:

UCアーバイン機械学習リポジトリ：

現在、機械学習コミュニティへのサービスとして223のデータセットを保持しています。検索可能なインターフェースを介してすべてのデータセットを表示できます。古いフォーマットを好む人のために、私たちの古いウェブサイトはまだ利用可能です。...データセットを寄付する場合は、寄付ポリシーをご覧ください。...リポジトリのミラーサイトもセットアップしました。

また、次のMIASデータセットが広く使用および調査されています。

アルゴリズムをベンチマークする場合、研究者が結果を直接比較できるように、標準のテストデータベース（データセット）を使用することをお勧めします。ほとんどのマンモグラフィデータベースは公開されていません。最も簡単にアクセスできるデータベース、したがって最も一般的に使用されるデータベースは、マンモグラフィ画像分析協会（MIAS）データベースとスクリーニングマンモグラフィ用デジタルデータベース（DDSM）です。その上、現在、いくつかの古いプロジェクトだけでなく、新しいマンモグラフィ画像データベースを開発するプロジェクトもほとんどありません。

— deepML
ソース

+1さらに情報源が見つかる場合は、この回答を自由に追加してください。

— whuber

Basharによって言及されたUCIリポジトリはおそらく最大のものですが、私が見つけたいくつかの小さなコレクションを追加したかったのです。

Mulan Javaライブラリのデータセット
カーネギーメロン大学コンピュータサイエンススクールのAuton labからのデータセット
統計学習の Book 要素で使用されるデータセット
KDDカップ大会のいくつかのデータセット
ミュンヘン大学統計学部のデータセット

— SEBP
ソース