ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました(理由を覚えていない)。
leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか?
ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました(理由を覚えていない)。
leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか?
回答:
@SubravetiSuraj(+1)の答えに少し追加するだけです
トレーニングセットを大きくすると、ほとんどの統計モデルが改善されるため、相互検証は悲観的に偏ったパフォーマンスの推定値を提供します。これは、k分割交差検証では、データセットの100%ではなく、100 *(k-1)/ k%の利用可能なデータセットでトレーニングされたモデルのパフォーマンスを推定することを意味します。そのため、クロス検証を実行してパフォーマンスを推定し、運用上の使用のためにすべてのデータでトレーニングされたモデルを使用すると、クロス検証の推定が示唆するよりもわずかに優れたパフォーマンスを発揮します。
Leave-one-out cross-validationはほぼ不偏です。これは、各フォールドで使用されるトレーニングセットとデータセット全体のサイズの違いが単一のパターンにすぎないためです。これについては、LuntzとBrailovsky(ロシア語)による論文があります。
Luntz、Aleksandr、Viktor Brailovsky。「認識の統計的手順で得られた文字の推定について。」Technicheskaya Kibernetica 3.6(1969):6-12。
また見なさい
判別分析におけるエラー率の推定Peter A. Lachenbruch and M. Ray Mickey Technometrics Vol。10、Iss。1,1968
ただし、leave-one-out交差検定はほぼ不偏ですが、分散が大きくなる傾向があります(したがって、同じ分布からのデータの異なる初期サンプルで推定を繰り返した場合、非常に異なる推定が得られます)。推定器の誤差はバイアスと分散の組み合わせであるため、leave-one-out交差検定が10倍交差検定よりも優れているかどうかは両方の量に依存します。
現在、モデルの適合の分散は、小さなデータセットに適合している場合に大きくなる傾向があります(使用する特定のトレーニングサンプルのノイズ/サンプリングアーティファクトの影響を受けやすいため)。これは、トレーニングセットのサイズがLOOCVのサイズよりも小さいため、データ量が限られている場合、10倍の交差検定は高い分散(および高いバイアス)を持つ可能性が高いことを意味します。そのため、k分割交差検証にも分散の問題がありますが、理由は異なります。これが、データセットのサイズが小さい場合にLOOCVがよく優れている理由です。
ただし、私の意見でLOOCVを使用する主な理由は、一部のモデル(線形回帰、ほとんどのカーネルメソッド、最近傍分類子など)で計算的に安価であり、データセットが非常に小さい場合を除き、計算予算に収まる場合は10倍の交差検証、またはブートストラップの推定とバギングの方が優れています。
私の意見では、トレーニングデータのセットが少ない場合は、クロスバリデーションは省いてください。この場合、実際に10分割してモデルのトレーニングに残りのデータを使用することを予測することはできません。
一方、大量のトレーニングデータがある場合は、10倍のクロス検証がより良い方法です。クロス検証を1つ除外するには反復が多すぎるため、これらの多くの結果を考慮してハイパーパラメーターを調整する可能性があるためです。そんなに良い考えではありません。
ISLによれば、1つの除外を行うこととk倍のクロス検証の間には、常にバイアスと分散のトレードオフがあります。LOOCV(one out CV)では、各トレーニングセットにn-1個の例が含まれているため、バイアスが低く、分散が大きいテストエラーの推定値が得られます。これは、各反復でトレーニングセットのほぼ全体を使用していることを意味します。これは、トレーニングセット間に多くの重複があるため、分散も大きくなります。したがって、テストエラーの推定値は高い相関関係にあり、テストエラーの推定値の平均値の分散が大きくなります。
k折り畳みCVの場合は逆になります。トレーニングセット間のオーバーラップが比較的少ないため、テストエラーの推定値の相関が低くなり、その結果、平均テストエラー値はLOOCVほど分散しません。