私は機械学習(一部統計も含む)の新人で、しばらくの間、知識(教師あり/教師なし学習アルゴリズム、関連する最適化手法、正則化、いくつかの哲学(バイアス分散のトレードオフなど))を学んでいます。実際の練習がなければ、これらの機械学習のことを深く理解することはできません。
したがって、手書きの数字分類(MNIST)などの実際のデータの分類問題から始めます。驚いたことに、フィーチャラーニング/エンジニアリングなしで、生のピクセル値を入力としてランダムフォレスト分類器を使用すると、精度は0.97に達します。パラメータを調整してSVM、LRなどの他の学習アルゴリズムも試しました。
それから私は迷子になりました、それはあまりにも簡単ですか、または私はここで何か不足していますか?ツールキットから学習アルゴリズムを取得して、いくつかのパラメーターを調整するだけですか?
それが実際の機械学習についてのすべてであるなら、私はこの分野への興味を失います。私はいくつかのブログを数日間考えて読んだところ、いくつかの結論に達しました。
実際の機械学習の最も重要な部分は、特徴エンジニアリングです。つまり、データが与えられれば、特徴のより適切な表現を見つけます。
どの学習アルゴリズムを使用するか、またパラメータ調整も重要ですが、最後の選択は実験です。
私はそれを正しく理解しているとは思いません。誰かが私を訂正して、実際の機械学習についていくつかの提案をしてくれることを願っています。