Kaggleコンペティションは偶然に勝っただけですか？

Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。

保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか？

スポンサー企業にとって、これは実際には重要ではありません（おそらく、上位20件のサブミッションがベースラインを改善するでしょう）。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。

統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか？または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか？

— user0
ソース

一部の人々は、隠されたセットのテストを使用して、実際のテスト値をバックアウトします。これにより、結果にほぼ完全に適合することができます。ホールドアウトはこれを防ぎます。私の個人的な意見は、ホールドアウトと非ホールドアウトの違いは詐欺師を排除することだということです。

— EngrStudent-モニカの復活

もちろん、テストデータは参加者から出される必要がありますが、1つのホールドテストセットがあると、（上位

チームの）競技結果が本質的にほとんどチャンスに依存するのではないかと思います。

X

$X$

— user0

スコアは重み付けされます。優れたシステムは、ほぼ毎回ジャンクシステムよりも優れています。最後の作業が最初になるほどひどく失敗するためには、大量の作業が必要です。数千人の参加者がいる場合、おそらく10段階以下のローカル順序は、ホールドアウトがリサンプリングされた場合に変更されます。これを示すために数値実験を行うことができます。

— EngrStudent-モニカの復活

スポンサー企業の観点から、彼らは勝者モデルを実際に実装することを強制されません。私の記憶が正しければ、netflixチャレンジに勝ったモデルは実装されませんでした。彼らは最高のモデルの中からいくつかの信頼できる候補を取り、さらにテストすることができます。

— デビッドエルンスト

回答:

はい、あなたの推論は正しいです。別のテストセットが選択され、競争が繰り返された場合、ランキングは実際に変更されます。次の例を考えてみましょう。バイナリラベルを使用したKaggleコンテストへのすべてのエントリは、出力を予測するためにランダムに（たとえば、独立して）推測するだけです。偶然にも、予測が行われていない場合でも、そのうちの1人は他の人よりも抵抗に同意します。

これは少し工夫されていますが、提出物の各モデルの分散は、多くのそのようなエントリを適用することが実際にホールドアウトセットのノイズに適合することを意味することがわかります。これは、（個々のモデルの分散に応じて）上位Nモデルがおそらく同じことを一般化することを示しています。これは分岐パスの庭です。ただし、「研究者」は同じではありません（ただし、それは重要ではありません）。

テストセットのトップパフォーマンスと統計的に区別できないすべてのチームが勝つように、競争を変更することは可能ですか？

確かに。

1つのアプローチ（実際的ではありません）は、各エントリで特定のモデルの分散を明示的に計算することです。これにより、ホールドアウトパフォーマンスに関するCIが得られます。
別のアプローチは、多くの計算を必要とする可能性がありますが、トレーニングおよびテストAPIをすべてのモデルに公開することにより、ホールドアウトパフォーマンスでCIをブートストラップすることです。

— VF1
ソース

素晴らしい答え。2つの方法の実装方法について詳しく説明してください。

— -user0

面白いことです。実際、最高のモデルは勝者チームではないかもしれません。

— -user0

明示的に分散を計算することは、データ分布なしでは行えません（理論を説明しているため、言及するだけです）。このホワイトペーパーでは、ブートストラップや相互検証など、精度を推定するためのいくつかの方法（および失敗する場合）について説明します。ただし、この文脈では、論文とは異なり、トレーニングセットでモデルを選択するためのCVではなく、トレーニングデータセットとテストデータセットを組み合わせた堅牢な「スコア」を求めています。

— VF1

おそらく、勝者を確実に推定するには2ラウンドの方がよいでしょう。1回目は99％の最悪を取り除き、2回目はランキングを再推定して順序を「研磨」します。

— EngrStudent-モニカの復活

ここにアイデアを追加するには、2014年のNCAA March Madness Kaggleコンテストの勝者によるこの論文をご覧ください。セクション4「シミュレーションスタディ」までスクロールします。彼らのシミュレーションによると、各対戦のモデルの予測確率が実際に自然の真の状態であった場合、配置の中央値は11位になります。

— クランバード

Kaggleには他のタイプの競技会にはチャンス要素がありません。たとえば、これはStanta's Stolen Sleighです。

これは離散的な最適化の問題であり、プライベートリーダーボードさえありません。パブリックリーダーボードに表示されるのは最終結果です。

多くの人にとって簡単に始められる教師あり学習と比較すると、この種の競争は本質的に「ハード」です。

— ハイタオドゥ
ソース