プライベートテストセットの結果を使用してモデルをさらに絞り込むことはできませんが、プライベートテストセットの結果に基づいて実行される膨大な数のモデルからモデルを選択することはできませんか?そのプロセスだけで、プライベートテストセットに過剰適合することはありませんか?
Bailey et.al.による「擬似数学と金融の特性主義:サンプル外のパフォーマンスに対するバックテストの過剰適合の影響」によると。同じデータセットで評価された多数のモデルから最良のものを選択する場合、「オーバーフィット」するのは比較的簡単です。Kaggleのプライベートリーダーボードではそれは起こりませんか?
- プライベートリーダーボードで最高のパフォーマンスを発揮するモデルが、サンプル外のデータに最高のモデルを一般化するモデルであるための統計的正当性は何ですか?
- 企業は実際に勝利モデルを使用することになりますか、それとも「ゲームのルール」を提供するためだけにプライベートリーダーボードがありますか。実際、企業は問題の議論から生じる洞察にもっと興味がありますか?
1
やや関連:stats.stackexchange.com/q/235591
—
Kodiologist
プライベートスコアとパブリックスコアの違いを見ることができます。過剰適合モデルは、両方のデータセットで同様のパフォーマンスを達成する必要があると主張できます。
—
シャドウトーカー
@shadowtalkerそれは確かにオーバーフィットを検出する良い方法ですが、実際に興味があるのは、オーバーフィットの度合いではなく、モデルのサンプル外予測力です。オーバーフィットモデル、つまりサンプル外よりもサンプル内ではるかに優れた動作をするモデルは、オーバーフィットでないモデルよりもサンプル外でのパフォーマンスが優れている場合があります。手元に参考資料はありませんが、CNNなどの複雑なモデルを使用している場合は、コンピュータービジョンなどの複雑なドメインでよく見られます。
—
rinspy