特に、1つのデータセットがデータの準備から最終的なモデルに至るまで詳細に検討されている、データマイニングに関する中程度から長めの論文/ウェブサイトなどを探しています。特に、機械学習アルゴリズムの適用と基本的なデータモデリングについての議論に興味があります。例としては、Luis Torgoの著書「Data Mining with R」があります。任意の提案をいただければ幸いです。
特に、1つのデータセットがデータの準備から最終的なモデルに至るまで詳細に検討されている、データマイニングに関する中程度から長めの論文/ウェブサイトなどを探しています。特に、機械学習アルゴリズムの適用と基本的なデータモデリングについての議論に興味があります。例としては、Luis Torgoの著書「Data Mining with R」があります。任意の提案をいただければ幸いです。
回答:
Kaggle.comのブログをチェックしてください。このブログでは、勝者がデータマイニング競争を解決するためのアプローチについて議論しています。その後、kaggle.com Webサイトに戻って説明とデータを取得し、自分で試してみることができます。
ここから始めるのが良いでしょう:
そこにあるデータの準備に関してはそれほど多くはありませんが、アプリケーションに関しては十分です。また、関連する論文へのリンクがたくさんあります。
無料のJournal of Statistical Softwareの記事をお勧めします。
実際のデータ例の分析とともに、データマイニング/機械学習のさまざまなアプリケーションを見つけることができます。ほとんどの記事はRパッケージに関するものなので、Rでそれらの分析を同時に実行することもできます。ジャーナルの記事にはRコードも含まれ、Rのパッケージにはデータが含まれます。
すべてのデータはそこで詳細に分析されるため、私にとって非常に価値のある情報源です。
キャレットの Rパッケージは、さまざまなデータ準備作業を適用して歩く4つのビネットのセットを持って、いくつかの生の例のデータセットから始まる学習アルゴリズム、特徴選択、およびデータの視覚化を監修しました。
キャレット自体が提供する機能を使用してこれらのことを行う方法に焦点が当てられていますが、それでも一般的に適用可能であり、実際のプロジェクトにはかなり読みやすくなっています。
以下は、4つのPDFビネットへの直接リンクです。
ここに私が役に立ったと思ういくつかがあります: