タグ付けされた質問 「stacking」

7
業界とKaggleの課題。派手なモデリングよりも多くの観測を収集し、より多くの変数にアクセスすることが重要ですか?
タイトルが自明であることを願っています。Kaggleでは、ほとんどの勝者は何百ものベースモデルとスタックを使用して、MSEの数%、精度を圧縮します...一般的に、あなたの経験では、スタックなどの派手なモデリングはどれだけ重要ですか?データのために?

2
これは最先端の回帰方法論ですか?
私は長い間Kaggleのコンペティションをフォローしてきましたが、多くの勝利戦略には、「ビッグスリー」の少なくとも1つ、つまりバギング、ブースティング、スタックの使用が含まれることに気付きました。 回帰については、可能な限り最良の回帰モデルの構築に焦点を当てるのではなく、(一般化)線形回帰、ランダムフォレスト、KNN、NN、SVM回帰モデルなどの複数の回帰モデルを構築し、合理的な方法で結果を1つにブレンドします-個々のメソッドを何回も実行します。 もちろん、各方法をしっかり理解することが重要であり、線形回帰モデルに基づいて直感的なストーリーを伝えることができますが、これが最良の結果を達成するための最先端の方法論になっているのではないかと思っています。

5
自動機械学習は夢ですか?
機械学習を発見すると、次のようなさまざまな興味深い手法が見つかります。 以下のような技術を用いて自動的に調整アルゴリズムgrid search、 同じ「タイプ」の異なるアルゴリズムの組み合わせにより、より正確な結果を取得します。つまりboosting、 異なるアルゴリズムの組み合わせにより、より正確な結果を取得します(ただし、同じタイプのアルゴリズムではありません)。つまりstacking、 おそらくもっと多くのことを発見する必要があります... 私の質問は次のとおりです。すべてのそれらの部分があります。しかし、それらをまとめて、すべての手法の中で最善のものを使用して、入力としてクリーンなデータを取得し、良好な結果を出力するアルゴリズムを作成することは可能ですか?(もちろん、プロのデータサイエンティストほど効率的ではありませんが、私よりも優れています!)はいの場合、サンプルコードを持っていますか、それを実行できるフレームワークを知っていますか? 編集:いくつかの答えの後、いくつかの絞り込みを行う必要があるようです。例を見てみましょう。カテゴリデータを含む1つの列があり、それyを呼び出して、Xダミーまたは実際の数値データ(高さ、温度)のいずれかである数値データから予測したいとします。クリーニングは以前に行われたものと想定しています。そのようなデータを取得して予測を出力できる既存のアルゴリズムはありますか?(複数のアルゴリズムのテスト、チューニング、ブースティングなど)はいの場合、計算は効率的ですか(通常のアルゴリズムと比較した場合、計算は妥当な時間内に行われますか)、コードの例はありますか?

1
アンサンブル学習:モデルスタッキングが効果的なのはなぜですか?
最近、私はアンサンブル学習の一種としてモデルスタッキングに興味を持ちました。特に、回帰問題のおもちゃのデータセットを少し試してみました。基本的に、個々の「レベル0」リグレッサを実装し、各リグレッサの出力予測を「メタリグレッサ」が入力として受け取る新しい機能として保存し、このメタリグレッサをこれらの新しい機能(レベルからの予測)に適合させました。 0リグレッサ)。バリデーションセットに対してメタリグレッサーをテストしたところ、個々のリグレッサーに対してささやかな改善でさえあることに私は非常に驚きました。 それで、ここに私の質問があります:なぜモデルスタッキングは効果的ですか?直感的には、スタッキングを行うモデルは、レベル0の各モデルと比較して機能表現が貧弱であるように見えるため、パフォーマンスが低いことが予想されます。つまり、20の特徴を持つデータセットで3つのレベル0のリグレッサをトレーニングし、これらのレベル0のリグレッサの予測をメタリグレッサへの入力として使用する場合、これは、メタリグレッサに3つの特徴しか学習できないことを意味します。メタリグレッサがトレーニングに使用する3つの出力フィーチャよりも、レベル0リグレッサがトレーニングに持つ20の元のフィーチャにエンコードされた情報が多いようです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.