機械学習アルゴリズムの研究:理解の深さとアルゴリズムの数


13

最近、私はデータサイエンスの分野に紹介されました(約6か月でした)。IiはAndrew Ngによる機械学習コースとJHUによるデータサイエンス専門分野の仕事を開始しました。

実用的なアプリケーションの面では、私は摩耗を予測する予測モデルの構築に取り組んできました。これまでのところ、これらの方法を学習して適用するためにglm、bayesglm、rfを使用しましたが、これらのアルゴリズムの理解には大きなギャップがあります。

私の基本的なジレンマは次のとおりです。

いくつかのアルゴリズムの複雑さの学習にもっと集中する必要があるのか​​、それとも必要なときにいつでも多くのアルゴリズムを知るというアプローチを使用する必要があるのか​​?

本や記事など、役立つと思われるものを提案するなどして、正しい方向に導いてください。

データサイエンスの分野でキャリアを始めたばかりで、ビジネスの世界で実際的な問題を解決できる人になりたいと思っている人を導くというアイデアをお寄せいただければ幸いです。

この投稿で提案されたリソース(書籍、記事)を(できるだけ多く)読んで、同様の長所と短所について個人的なフィードバックを提供して、これが同様の質問に出くわした人々に役立つ投稿になるようにします将来、これらの本を提案する人々が同じことをすることができれば素晴らしいと思います。

回答:


9

いくつかの信頼できるアルゴリズムに限定することをお勧めします。統計学習の要素(最初の本として)はお勧めしません。大学院生向けの理論的すぎて、XまたはYを証明する方法を尋ねる演習があります... ISLの方がより適切で、より実践的なアドバイスがあると思います(いずれの場合もPDFとしてダウンロードできます)。

統計に加えて、実験デザイン/ ABテスト、およびビジネスインテリジェンス/視覚化に慣れていることを確認します。


いくつかのアルゴリズムを提案することができればありがたいと思います。可能であれば、それらを学ぶための最良の方法を述べてください(特定の本、セルフヘルプ記事、または試行錯誤かもしれません)

2
ISLのほとんどすべてのアルゴリズム:線形回帰、ロジスティック回帰、ツリーベースのメソッド、SVM。PCAなどのクラスタリングと次元削減。本を読み、対応するオンラインコースをご覧くださいonline.stanford.edu/course/statistical-learning-winter-2014-おそらくYouTubeで?)。
seanv507

偉大なリソース、著者自身が同じ本やビデオを持っているのは良いことです。リンクをありがとう、これを知っていませんでした。
ヴィナイティワリ14

すみませんが、これはひどいアドバイスです。データサイエンティストは、いくつかのアルゴリズムに頼るべきではありません。独自のデータと分析のスキルに依存する必要があり、2つのデータの問題は同じではありません。Xで解決するものも、Yで解決するものもあります。データユニバースが少数のアルゴリズムに対応することを期待するのは、単に合理的ではありません。知り合いだけでなく、好奇心を持ち、柔軟性を持ち、知識を持ち、仕事に適したツールを使用してください。
I_Play_With_Data

5

おそらく、自分自身をデータサイエンティストと呼ぶ人は、一般的なまたは庭の統計学者よりも、使用するアルゴリズムの複雑さ(GLMのフィッシャースコアリングアルゴリズムの収束率に影響を与えるものなど)についてもっと知る必要があります。最尤法による解決策が見つかります(おそらく、彼らがコーヒーを飲んだ後に)。いずれにせよ、統計と機械学習の一般的な概念を理解することは、使用する方法(それらの背後にある理論、それらが行う仮定、実行する診断チェック、結果の解釈方法)に精通することに加えて重要です。このパロディであることは避けてください。

あなたはおそらくHastieらを読むことを楽しむでしょう(2009)、統計学習の要素


きっとそれを読むでしょう!最後の行が本当に好きだった...私は衝動と時々結果を得るためのプレッシャーがしばしばそのようなパロディにつながると思います。そして、これと逆のことを避けることも同様に重要であり、実世界の問題には役に立たなくなるほど学習に深く入り込む。成長/学習することは、何をすべきでないかを知ることがより重要な場合がありますが、ガイダンスに感謝します。私と同様の旅で他の人を啓発するような洞察をもっと期待してください。

「GLMのフィッシャースコアリングアルゴリズムの収束率に影響するもの」-ここでデータサイエンティストの99%を失ったと思います。

@Momo:ええと、「データサイエンティスト」は、評価が下がり始める前に通貨をほとんど獲得していない、悪名高い用語の1つです。
Scortchi -復活モニカ

2

さて、1つまたは2つのアルゴリズムの複雑さ(パラメーターの内部動作など)を詳細に知ることは、それらを大量に実行する方法を知ることよりも間違いなく優れていると思います。

私はアナリティクスの分野で約11年、データサイエンティストで2.5年働いており、経験から話しています。一方で、目の前の問題にもっと当てはまるかもしれない他のもの(ディープラーニング、SVM、XGboostなどの最近のアルゴリズム)を確実に認識する必要があります。

Andrew Ng博士のコースは、いくつかのアルゴリズムの詳細についてかなり詳しく説明しているので、良いスタートだと思います。他の人が指摘しているように、http://statweb.stanford.edu/~tibs/ElemStatLearn/は良い本であり、動画もあります。

これは私の個人的な意見であり、見逃してはいけないアルゴリズムは次のとおりです(これらを詳細に知ってください):

1)多重線形回帰2)ロジスティック回帰3)PCAなどの次元削減の一般的な手法4)K平均クラスタリング5)非線形回帰6)最適化手法:勾配ベースの検索手法、線形計画法、離散最適化7)概念とアルゴリズム特徴工学における8)簡単な時系列予測手法

その他の難解なアルゴリズム:

1)ランダムフォレスト2)SVM 3)深層学習4)LDAなどの次元削減の他の方法5)その他のカーネルベースの方法6)遺伝的アルゴリズム7)XgBoost 8)動的回帰9)GARCH / ARCH方法10)構造方程式モデリング11)時系列予測におけるBox Jenkinsの手法12)情報理論:情報ゲイン、相互ゲインなど


0

私は同じような状況にあった。私はここですべてのアルゴリズムから始めました(そして非常に詳細に)。

ここに画像の説明を入力してください

しかし、すぐに機械/深層学習の学界が非常に速く動いており、多くの実際のアプリケーションで従来のアルゴリズムをはるかに凌ぐ、より高速で最先端のアルゴリズムを常に考案していることがわかりました。 。したがって、常に最新のトレンドで更新することが望ましいです。私は(私自身が通常行うように)良いニュースフィード(Mediumなど)または驚くべき最先端の研究ジャーナルの購読を取得し、それに従うことをお勧めします。多くの場合、驚くべきアルゴリズムは、特定の問題(おそらくあなたのものに似ている)に取り組む研究論文から来ています。

重要なのは、優れたデータサイエンティスト(またはMLエンジニア)になるには、深さと幅の両方が必要です。個人的には、表面の多くのアルゴリズムを知っていると便利です(単に何をするか、いつ使うか、賛否両論)。私が感じるときに彼らに戻る(感じるだけ特定の問題の解決に役立つかもしれない)ます。それらを詳細に読み、それらが適切かどうかを確認します。彼らはそうかもしれないし、そうでないかもしれない。しかし、詳細について考えることは、そのアプローチに対する洞察力が不足しているために、問題に対する驚くべきアプローチを見逃さないようにするために不可欠です。たとえば、一度オブジェクトの検出が必要なものに取り組んでいた(非常に簡単ですが)。R-CNN、Fast-CNN、YOLOについて読んだことがあります。私はすぐに彼らに向いて、彼らがよく合うかどうか確かめました。その日、私はそれらをより詳細に知りました。

いくつかのアルゴリズムの複雑さの学習にもっと集中する必要があるのか​​、それとも必要なときにいつでも多くのアルゴリズムを知るというアプローチを使用する必要があるのか​​?

複雑さを学ぶことは驚くべきことです。しかし、世界は本当に速いペースで動きます。学習したアルゴリズムを非常に詳細に上回る新しいアルゴリズムがあるかもしれません。したがって、その使用をフラッシュして、新しい使用がより良いかどうかを確認する時間です。

必要なときに物事を学びます。そして必要に応じて、それらを詳細に学びます。おそらく機能すると思われる場合は、適用できるはずです。そして、この洞察は知識から来ています。

幸運を。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.