回答:
ディープラーニングは2006年以来、多くの注目を集めています。これは基本的にディープニューラルネットワークをトレーニングするアプローチであり、非常に難しいデータセット(ドキュメントクラスタリングやオブジェクト認識など)で非常に印象的な結果につながります。一部の人々は、2番目のニューラルネットワークのルネッサンスについて話しています(たとえば、シュミットフーバーによるこのGoogleトーク)。
感銘を受けたい場合は、このサイエンスペーパーのニューラルネットワークによるデータの次元数の削減、 Hinton&Salakhutdinovをご覧ください。
(その分野では現在非常に多くの作業が行われているため、大まかな機械学習、Langford et al、Machine Learning: Kevin Murphyによる確率論的な観点から、それを扱う本について私が知っている本は2つしかありません。)
詳細を知りたい場合は、主要なディープラーニンググループが行っていることを確認してください。スタンフォード、モントリオール、そして最も重要なのはトロント#1とトロント#2です。
これまでに与えられた回答のほとんどは、「教師あり学習」(つまり、アルゴリズムのトレーニングに使用できるデータセットの一部のラベルがある場所)に関するものです。質問は、「教師なし」アプローチであるクラスタリングについて具体的に言及しました(つまり、ラベルは事前に知られていません)。このシナリオでは、以下をご覧になることをお勧めします。
ただし、実際には、使用する特定のアルゴリズムよりも、類似性/距離の測定値の方が重要であることがわかるでしょう。
ラベル付きのデータがある場合、「半教師付き学習」アプローチが人気を集めており、非常に強力です。SSLの出発点として適切なのは、LapSVM(Laplacian Support Vector Machine)です。
これらは役に立つかもしれない本です:
その後、スタンフォード大学で始まった機械学習の無料クラスwww.ml-class.comに参加できます。
また、特定の問題、つまりSNP分析については、パドバ大学のDi Camilloのグループをご覧になることをお勧めします。
最も一般的な方法のほとんどの理論的根拠、理論、応用を説明する素晴らしい記事と本があります:
この分野の投票専門家が選んだ「トップ10」であるため、特にすてきです。
また、一般的な遺伝子データの場合、多くの特徴があるため、特徴の選択は非常に重要です。たとえば、SVM再帰的特徴除去(SVM-RFE)および関連する方法は非常に一般的であり、遺伝子データのコンテキストで積極的に開発および適用されています。
ブーストされたツリーと何らかの形のsvmは多くの競争に勝ちますが、それは常にコンテキストに依存します。マニホールドの正則化も最先端にあります。
ラスムッセンとウィリアムズによる機械学習のためのガウス過程(MIT Press)は必須です。ガウスプロセスは、期待値伝播と変分推論アルゴリズムが利用できるようになった今、機械学習のホットアルゴリズムの1つです。この本は非常によく書かれており、無料のMATLABツールボックス(キットの良い部分)があり、無料でダウンロードできます。