機械学習の「ホットアルゴリズム」とは何ですか?


14

これは、機械学習を学び始めた人からの素朴な質問です。私は最近、マースランドの本「機械学習:アルゴリズムの視点」を読んでいます。入門書としては便利だと思いますが、現在、最高の結果を出している高度なアルゴリズムについて説明します。私は主にバイオインフォマティクスに興味があります。生物学的ネットワークのクラスター化と生物学的配列のパターンの発見、特に一塩基多型(SNP)分析に適用されます。レビューや本を読むことをお勧めしてもらえますか?

回答:


15

ディープラーニングは2006年以来、多くの注目を集めています。これは基本的にディープニューラルネットワークをトレーニングするアプローチであり、非常に難しいデータセット(ドキュメントクラスタリングやオブジェクト認識など)で非常に印象的な結果につながります。一部の人々は、2番目のニューラルネットワークのルネッサンスについて話しています(たとえば、シュミットフーバーによるこのGoogleトーク)。

感銘を受けたい場合は、このサイエンスペーパーのニューラルネットワークによるデータの次元数の削減、 Hinton&Salakhutdinovをご覧ください。

(その分野では現在非常に多くの作業が行われているため、大まかな機械学習、Langford et al、Machine Learning: Kevin Murphyによる確率論的な観点から、それを扱う本について私が知っている本は2つしかありません。)

詳細を知りたい場合は、主要なディープラーニンググループが行っていることを確認してください。スタンフォードモントリオール、そして最も重要なのはトロント#1トロント#2です。


8

これまでに与えられた回答のほとんどは、「教師あり学習」(つまり、アルゴリズムのトレーニングに使用できるデータセットの一部のラベルがある場所)に関するものです。質問は、「教師なし」アプローチであるクラスタリングについて具体的に言及しました(つまり、ラベルは事前に知られていません)。このシナリオでは、以下をご覧になることをお勧めします。

  • k-meansおよびカーネルk-means
  • 凝集クラスタリング
  • 非負行列因子分解
  • 潜在ディリクレ配分
  • ディリクレ過程と階層ディリクレ過程

ただし、実際には、使用する特定のアルゴリズムよりも、類似性/距離の測定値の方が重要であることがわかるでしょう。

ラベル付きのデータがある場合、「半教師付き学習」アプローチが人気を集めており、非常に強力です。SSLの出発点として適切なのは、LapSVM(Laplacian Support Vector Machine)です。


7

これらは役に立つかもしれない本です:

  • Pang-Ning Tan、Michael Steinbach、Vipin Kumarによるデータマイニングの概要。これは、大学のデータマイニングクラスで提案された本でした。私はそのレイアウトと理論的なアプローチが好きです。
  • データマイニング:実用的な機械学習ツールとテクニック(Ian H. Witten、Eibe Frank、Mark A. Hall)非常に興味深い本。この本は、データマイニングフレームワークWEKAで実装された多くのテクニックもカバーしています。
  • トーマス・ミッチェルによる機械学習。それは少し古い本ですが、役に立つかもしれません。

その後、スタンフォード大学で始まった機械学習の無料クラスwww.ml-class.comに参加できます。

また、特定の問題、つまりSNP分析については、パドバ大学のDi Camilloのグループご覧になることをお勧めします。


5

最も一般的な方法のほとんどの理論的根拠、理論、応用を説明する素晴らしい記事と本があります:

データマイニングのトップ10アルゴリズム

この分野の投票専門家が選んだ「トップ10」であるため、特にすてきです。

また、一般的な遺伝子データの場合、多くの特徴があるため、特徴の選択は非常に重要です。たとえば、SVM再帰的特徴除去(SVM-RFE)および関連する方法は非常に一般的であり、遺伝子データのコンテキストで積極的に開発および適用されています。


4

ブーストされたツリーと何らかの形のsvmは多くの競争に勝ちますが、それは常にコンテキストに依存します。マニホールドの正則化も最先端にあります。


4

Hastie、Tibshirani、Friedmanによる「統計的学習の要素」をお勧めします。それを読んで、それらによって記述されたいくつかのアルゴリズムで遊んではいけません(それらのほとんどはRで実装されています、またはあなた自身で実装することもできます)。



3

ラスムッセンとウィリアムズによる機械学習のためのガウス過程(MIT Press)は必須です。ガウスプロセスは、期待値伝播と変分推論アルゴリズムが利用できるようになった今、機械学習のホットアルゴリズムの1つです。この本は非常によく書かれており、無料のMATLABツールボックス(キットの良い部分)があり、無料でダウンロードできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.