統計とビッグデータ kaggle

業界とKaggleの課題。派手なモデリングよりも多くの観測を収集し、より多くの変数にアクセスすることが重要ですか？

タイトルが自明であることを願っています。Kaggleでは、ほとんどの勝者は何百ものベースモデルとスタックを使用して、MSEの数％、精度を圧縮します...一般的に、あなたの経験では、スタックなどの派手なモデリングはどれだけ重要ですか？データのために？

56 large-data stacking collecting-data kaggle

Kaggleコンペティションは偶然に勝っただけですか？

Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか？スポンサー企業にとって、これは実際には重要ではありません（おそらく、上位20件のサブミッションがベースラインを改善するでしょう）。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか？または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか？

12 machine-learning probability hypothesis-testing sample kaggle

タグ付けされた質問 「kaggle」

タグ付けされた質問「kaggle」