ネストされた相互検証が本当に必要なのはいつで、実際に違いが出るのでしょうか

クロス検証を使用してモデルの選択（ハイパーパラメーター調整など）を行い、最適なモデルのパフォーマンスを評価する場合、ネストされたクロス検証を使用する必要があります。外側のループはモデルのパフォーマンスを評価することであり、内側のループは最適なモデルを選択することです。モデルは各外部トレーニングセットで選択され（内部CVループを使用）、そのパフォーマンスは対応する外部テストセットで測定されます。

これは多くのスレッドで議論され、説明されています（たとえば、ここでクロス検証後の完全なデータセットを使用したトレーニング？など、@ DikranMarsupialによる回答を参照）。モデル選択とパフォーマンス推定の両方に対して単純な（ネストされていない）交差検証のみを行うと、正にバイアスされたパフォーマンス推定が得られます。@DikranMarsupialには、まさにこのトピックに関する2010年の論文（モデル選択の過剰適合とパフォーマンス評価における後続の選択バイアス）があり、セクション4.3と呼ばれています。-そして、紙は答えがはいであることを示しています。

そうは言っても、私は現在、多変量多重リッジ回帰に取り組んでおり、単純なCVとネストされたCVの間に違いは見られません。私の質問は次のとおりです。単純なCVはどのような条件下で、ネストされたCVで回避される顕著なバイアスを生み出すのでしょうか。ネストされたCVは実際にはいつ重要であり、それほど重要ではありませんか？経験則はありますか？

以下は、実際のデータセットを使用した図です。横軸は、リッジ回帰のです。縦軸は交差検定エラーです。青い線は、単純な（ネストされていない）交差検証に対応しており、50のランダムな90:10トレーニング/テストの分割があります。赤い線は、50のランダムな90:10トレーニング/テストスプリットのネストされたクロス検証に対応します。は、内部クロス検証ループ（50のランダム90:10スプリット）で選択されます。線は50以上のランダムな分割を意味し、網掛けは標準偏差を示します。 $\log(\lambda)$ $\lambda$ $\pm1$

赤い線は平坦です。内側のループでが選択されており、外側のループのパフォーマンスがの全範囲にわたって測定されていないためです。単純な相互検証にバイアスがかかっている場合、青い曲線の最小値は赤い線より下になります。しかし、そうではありません。 $\lambda$ $\lambda$

更新

実際はそうです:-)それは、違いが小さいということです。ズームインは次のとおりです。

ここで誤解を招く可能性のあることの1つは、エラーバー（網掛け）が巨大であるが、ネストされたCVと同じCVが同じトレーニング/テスト分割で実行できることです。コメントの@Dikranが示唆するように、それらの比較はペアになっています。ネストされたCVエラーと単純なCVエラーの違いを見てみましょう（私の青い曲線の最小値に対応するについて）。繰り返しますが、各フォールドで、これら2つのエラーは同じテストセットで計算されます。トレーニング/テストの分割でこの差をプロットすると、次の結果が得られます。 $\lambda=0.002$ $50$

ゼロは、内側のCVループもを生成する分割に対応します（ほぼ半分の時間で発生します）。平均して、差は正になる傾向があります。つまり、ネストされたCVのエラーはわずかに高くなります。言い換えれば、単純なCVは非常に小さいが楽観的なバイアスを示しています。 $\lambda=0.002$

（手順全体を数回実行しましたが、毎回発生します。）

私の質問は、どのような条件下でこのバイアスが非常に小さいと期待できるのか、どのような条件下ではいけないのかということです。

cross-validation model-selection ridge-regression

— アメーバはモニカを復活させると言う
ソース

図を理解しているのかどうかはわかりませんが、各軸のネストされたクロスネストとネストされていないクロス検証からの推定誤差を示す散布図を生成できますか？使用しているデータセットはどれくらいの大きさですか？

— ディクランマースピアル

散布図を生成しましたが、すべてのポイントが対角線に非常に近く、それからの偏差を識別するのは困難です。そのため、代わりに、ネストされたCVエラーから単純なCVエラー（最適なラムダの場合）を差し引き、すべてのトレーニングテスト分割にわたってプロットしました。非常に小さいが、顕著なバイアスがあるようです！更新しました。数字（または私の説明）がわかりにくい場合はお知らせください。この投稿を明確にしたいと思います。

— アメーバは、モニカを復活させる

最初の段落では、各外部トレーニングセットでモデルが選択されています。代わりにおそらく内部にあるべきでしょうか？

— リチャードハーディ

@RichardHardyいいえ。しかし、この文は明確に定式化されていないことがわかります。モデルは、各外部トレーニングセットで「選択」されます。異なるモデル（異なるラムダを持つモデルなど）が各内部トレーニングセットに適合し、内部テストセットでテストされた後、外部トレーニングセット全体に基づいてモデルの1つが選択されます。次に、外部テストセットを使用してパフォーマンスを評価します。理にかなっていますか？

— アメーバは、モニカを復活させる

バイアスは、モデル選択基準の分散に依存し、分散が大きいほど、バイアスが大きくなる可能性が高いことをお勧めします。モデル選択基準の分散には、評価対象のデータセットのサイズ（したがって、小さなデータセットがある場合、バイアスが大きくなる可能性が高い）と統計モデルの安定性に関する2つの主要なソースがあります。モデルパラメーターは利用可能なトレーニングデータによって十分に推定されているため、ハイパーパラメーターを調整することでモデルがモデル選択基準をオーバーフィットする柔軟性が低くなります。他の関連要因は、行われるモデル選択の数および/または調整されるハイパーパラメータです。

私の研究では、強力な非線形モデルと比較的小さなデータセット（一般に機械学習の研究で使用される）を調べていますが、これらの両方の要因は、ネストされた交差検証が絶対に必要であることを意味します。パラメーターの数を増やすと（おそらく、各属性にスケーリングパラメーターを持つカーネルがある場合）、過剰適合は「破局的」になる可能性があります。単一の正則化パラメーターと比較的多数のケース（パラメーターの数に対して）のみを持つ線形モデルを使用している場合、その差ははるかに小さい可能性があります。

計算の実行可能性があれば、ネストされたクロス検証を常に使用することをお勧めします。バイアスの原因を排除し、私たち（およびピアレビューア; o）がそれを心配する必要はありません。無視できるかどうか。

— ディクラン・マースピアル
ソース

すべてのデータを使用する場合、トレーニングセットエラーを効果的にプロットしているのではありませんか？正規化パラメーターが慎重に選択されている場合でも、最適なモデルのトレーニングセットエラーはゼロですが、一般化エラーはゼロではない分類モデルを使用することがよくあります。

— ディクランマースピアル

数千以下のトレーニングパターン。どのようなモデルを使用していますか？データセットが大きくなると、一般的な規則として、統計上の問題が減少し、計算上の問題が増加します。k倍交差検証は、基本モデル（ハイパーパラメーター調整を含む）に適合するよりもk倍遅いだけなので、実行可能から実行不可能になることはめったにありません。k倍交差検証も簡単に並列化できます。

— ディクランMarsupial

公平なパフォーマンス推定値を提供するだけです。本質的にネストされたCVは、交差検証によるモデル選択を含む、モデルの近似方法のパフォーマンスを推定します。運用モデルを取得するには、通常、データセット全体を使用してメソッドを繰り返すだけです。これにより、「フラットな」交差検証手順と同じモデル選択が可能になります。

— ディクランマースピアル

また、ネストされたCVの問題に遭遇しました。不偏のネストされたCVを使用するには、より小さなデータでモデルを近似する必要があります。10倍のCVの場合、ネストされたCVの81％とネストされていないCVの90％のようになります。また、テストフォールドは9％になりますが、ネストされていない場合は10％です。それはモデル評価で余分な分散を生成しますか？特に、この投稿の350サンプルのような小さなデータセットの場合。これはネストされたCVを使用する「欠点」ですか？もしそうなら、ネストされたCVとデータセットのサイズを使用するかどうかをどのように決定する必要がありますか？この問題についてのあなたのような専門家からの意見を本当に感謝します。この問題に関連する論文はありますか？@Dikran Marsupial

— ゼスラ

@zeslaはい、それは実際に内部交差検証のデータが少なく、その分散が発生する場合ですが、最終モデルはデータセット全体（ハイパーパラメーター推定を含む）を使用して構築されます。パフォーマンスの推定には、バイアスと分散の間に常にトレードオフがあります。データセットが小さい場合、モデルの選択とバイアスの過剰適合がより問題となるため、ネストされた交差検証を使用することが最も重要です。ハイパーパラメータがほとんどない実際のアプリケーションでは、その違いはarxiv.org/abs/1809.09446の実用的な意味はほとんどありません。

— ディクランマースピアル