機械学習を発見すると、次のようなさまざまな興味深い手法が見つかります。
- 以下のような技術を用いて自動的に調整アルゴリズム
grid search
、 - 同じ「タイプ」の異なるアルゴリズムの組み合わせにより、より正確な結果を取得します。つまり
boosting
、 - 異なるアルゴリズムの組み合わせにより、より正確な結果を取得します(ただし、同じタイプのアルゴリズムではありません)。つまり
stacking
、 - おそらくもっと多くのことを発見する必要があります...
私の質問は次のとおりです。すべてのそれらの部分があります。しかし、それらをまとめて、すべての手法の中で最善のものを使用して、入力としてクリーンなデータを取得し、良好な結果を出力するアルゴリズムを作成することは可能ですか?(もちろん、プロのデータサイエンティストほど効率的ではありませんが、私よりも優れています!)はいの場合、サンプルコードを持っていますか、それを実行できるフレームワークを知っていますか?
編集:いくつかの答えの後、いくつかの絞り込みを行う必要があるようです。例を見てみましょう。カテゴリデータを含む1つの列があり、それy
を呼び出して、X
ダミーまたは実際の数値データ(高さ、温度)のいずれかである数値データから予測したいとします。クリーニングは以前に行われたものと想定しています。そのようなデータを取得して予測を出力できる既存のアルゴリズムはありますか?(複数のアルゴリズムのテスト、チューニング、ブースティングなど)はいの場合、計算は効率的ですか(通常のアルゴリズムと比較した場合、計算は妥当な時間内に行われますか)、コードの例はありますか?
auto.arima
(forecast
ライブラリからの)予測については、人間よりも優れている可能性があります-Rob Hyndmanはプレゼンテーションで何度か言及しています。そのため、ある種の「自動学習」が成功して適用される分野があります。