Kaggleのプライベートリーダーボードは、受賞モデルのサンプル外のパフォーマンスの良い予測因子ですか？

プライベートテストセットの結果を使用してモデルをさらに絞り込むことはできませんが、プライベートテストセットの結果に基づいて実行される膨大な数のモデルからモデルを選択することはできませんか？そのプロセスだけで、プライベートテストセットに過剰適合することはありませんか？

Bailey et.al.による「擬似数学と金融の特性主義：サンプル外のパフォーマンスに対するバックテストの過剰適合の影響」によると。同じデータセットで評価された多数のモデルから最良のものを選択する場合、「オーバーフィット」するのは比較的簡単です。Kaggleのプライベートリーダーボードではそれは起こりませんか？

プライベートリーダーボードで最高のパフォーマンスを発揮するモデルが、サンプル外のデータに最高のモデルを一般化するモデルであるための統計的正当性は何ですか？
企業は実際に勝利モデルを使用することになりますか、それとも「ゲームのルール」を提供するためだけにプライベートリーダーボードがありますか。実際、企業は問題の議論から生じる洞察にもっと興味がありますか？

model-selection overfitting out-of-sample

— リンスピー
ソース

やや関連：stats.stackexchange.com/q/235591

— Kodiologist

プライベートスコアとパブリックスコアの違いを見ることができます。過剰適合モデルは、両方のデータセットで同様のパフォーマンスを達成する必要があると主張できます。

— シャドウトーカー

@shadowtalkerそれは確かにオーバーフィットを検出する良い方法ですが、実際に興味があるのは、オーバーフィットの度合いではなく、モデルのサンプル外予測力です。オーバーフィットモデル、つまりサンプル外よりもサンプル内ではるかに優れた動作をするモデルは、オーバーフィットでないモデルよりもサンプル外でのパフォーマンスが優れている場合があります。手元に参考資料はありませんが、CNNなどの複雑なモデルを使用している場合は、コンピュータービジョンなどの複雑なドメインでよく見られます。

— rinspy

さて、あなたが提示するポイントは公平ですが、公共のリーダーボードに過剰に適合している人々にははるかに現実的な問題があると思います。

これは、100件ほどの提出を行うと発生する可能性があります。公開テストセットは、最終的にハイパーパラメーターの選択に流出し、過剰に適合します。その点では、プライベートリーダーボードが必要だと思います。

— Mセフ
ソース