Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。
保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか?
スポンサー企業にとって、これは実際には重要ではありません(おそらく、上位20件のサブミッションがベースラインを改善するでしょう)。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。
統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか?または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか?