私のデータサイエンスの研究は、応用統計学の修士号として始まりました。コースの1つは機械学習であり、あなたが説明している内容と同様のアプローチがありました。だから、私はあなたの現在の見方に少し共感できます。しかし、あなたが人生で学んだかもしれない他のことと同じように、あなたが学問的な環境で物事を行う方法とビジネス環境で(すなわちクライアントのために)物事を行う方法は完全に異なります。これは私の最初の研究以来私が学んだことです:
1-Pythonを学ぶ
もちろん、他にもツールはありますが、それらは問題ありません(私はかつてRのコードを最も優れたもので記述していました)が、Pythonは未来の時代です。さらに、Pythonと同様にスケールするツールは非常に少ないため、本当にクールなものに取り組みたい場合は重要です。
2-すべては実装にかかっています
何だと思う?現在学習しているすべてのこと(混同行列、因子削減など)は、クライアントにとっては意味がありません。彼らはあなたを見つめて、「製品は何ですか?何かを私の電話にいつ配備するのですか?私のWebアプリケーションをクリックする場所は?」と言います。あなたの仕事の大部分はあなたのすべての仕事を製品に変えることであり、あなたは自分が準ソフトウェア開発者の帽子をかぶっているのに気づくでしょう。これは、Pythonを学ぶもう1つの理由でもあります。
3-データパイプラインに時間がかかる
LOTあなたの仕事のは、データ操作になると、ちょうどあなたが必要とするデータパイプラインがあることを確認します。もちろん、データベースはありますが、どのように更新しますか?どのような前処理が必要ですか?結果はどこに保存されますか?あなたはこのことを理解するのにたくさんの時間を費やします。データセットがすっきりとした方法で与えられた学校時代を逃します:)
4-ニューラルネットワークがお尻を蹴る
このリンゴを一口食べたら、戻るのは難しいです:)。ケラスを学び、乗車を楽しんでください。しばらくすると、決定木が何であるかを思い出す必要があります:)
5-モデル検索がはるかに簡単になりました
100%明確にするために、あなたが今行っている「モデル検索」アプローチは非常に貴重な経験です。あなたは間違いなくそれらのクラスで一生懸命働くべきです。ただし、時間があれば、(1)Data Robotまたは(2)Watson Analyticsのどちらかを見てください。これらのパッケージはどちらも、基本的に同じことを行います。彼らはあなたのデータセットを受け取り、それに最適なモデルを見つけます。上記で説明したすべての項目は、ほんの数秒で完了します。それらがどれほど高速であるかはほぼ恐ろしく、作業の削減に非常に効果的です。ただし、これらのパッケージは監視データのみをサポートすることに注意してください。監視されていないデータに対しては、昔ながらの方法でそれを行う必要があります(または、いくつかにラベルを付けてニューラルネットワークを使用します)。
6-私はまだ他のモデルの背後にある理論を使用しています
ニューラルネットワークをたくさん使用していても、他のモデルは役に立ちます。基本的な問題には、線形回帰または決定木を使用します。また、archivxに関する研究論文などを読むことにした場合にも役立ちます。ですから、私は自分の研究と理解のためにそれらを使用しますが、それはそれについてです。
楽しんで!