10倍の交差検証とleave-one-outの交差検証


25

ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました(理由を覚えていない)。

leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか?


1
どこで読んだか覚えていますか?
リチャードハーディ

5
バイアスに関するこの投稿を見ましたか?また、この回答には、5倍または10倍のクロス検証を推奨する非常に優れた本からの引用があります。
エリックファーン

1
この投稿は少し関連しています。
リチャードハーディ

1
ありがとうございました。全体として、Leave-one-out CVの代わりに10倍のCVを使用する必要があると言えますか?これは小さなデータセットにも当てはまりますか?
機械

1
@Thomasでは、データセットが小さくなりすぎると、LOO-CVをほぼ実行するようになるため、データセットのサイズが小さくなると、10倍のCVの利点が減少します。
cdeterman

回答:


27

@SubravetiSuraj(+1)の答えに少し追加するだけです

トレーニングセットを大きくすると、ほとんどの統計モデルが改善されるため、相互検証は悲観的に偏ったパフォーマンスの推定値を提供します。これは、k分割交差検証では、データセットの100%ではなく、100 *(k-1)/ k%の利用可能なデータセットでトレーニングされたモデルのパフォーマンスを推定することを意味します。そのため、クロス検証を実行してパフォーマンスを推定し、運用上の使用のためにすべてのデータでトレーニングされたモデルを使用すると、クロス検証の推定が示唆するよりもわずかに優れたパフォーマンスを発揮します。

Leave-one-out cross-validationはほぼ不偏です。これは、各フォールドで使用されるトレーニングセットとデータセット全体のサイズの違いが単一のパターンにすぎないためです。これについては、LuntzとBrailovsky(ロシア語)による論文があります。

Luntz、Aleksandr、Viktor Brailovsky。「認識の統計的手順で得られた文字の推定について。」Technicheskaya Kibernetica 3.6(1969):6-12。

また見なさい

判別分析におけるエラー率の推定Peter A. Lachenbruch and M. Ray Mickey Technometrics Vol。10、Iss。1,1968

ただし、leave-one-out交差検定はほぼ不偏ですが、分散が大きくなる傾向があります(したがって、同じ分布からのデータの異なる初期サンプルで推定を繰り返した場合、非常に異なる推定が得られます)。推定器の誤差はバイアスと分散の組み合わせであるため、leave-one-out交差検定が10倍交差検定よりも優れているかどうかは両方の量に依存します。

現在、モデルの適合の分散は、小さなデータセットに適合している場合に大きくなる傾向があります(使用する特定のトレーニングサンプルのノイズ/サンプリングアーティファクトの影響を受けやすいため)。これは、トレーニングセットのサイズがLOOCVのサイズよりも小さいため、データ量が限られている場合、10倍の交差検定は高い分散(および高いバイアス)を持つ可能性が高いことを意味します。そのため、k分割交差検証にも分散の問題がありますが、理由は異なります。これが、データセットのサイズが小さい場合にLOOCVがよく優れている理由です。

ただし、私の意見でLOOCVを使用する主な理由は、一部のモデル(線形回帰、ほとんどのカーネルメソッド、最近傍分類子など)で計算的に安価であり、データセットが非常に小さい場合を除き、計算予算に収まる場合は10倍の交差検証、またはブートストラップの推定とバギングの方が優れています。


2
不明な1969年のロシア語の参照については+1!LOOCVの分散が高いための参考文献はありますか?これは、Hastie et alに記載されていますが、この議論に100%納得しているかどうかは定かではなく、実証的なデモンストレーション(シミュレーション)を見たこともありません。
アメーバは、モニカを復活させる

3
はい、私はそれに同意するとは思わない、それはモデルがテストサンプルを削除することによって引き起こされる摂動の下で安定していると仮定しているからである。漸近的に正しいだけですが、それだけのデータがある場合、ほとんどの実用的なパフォーマンス評価スキームで同じ結果が得られます。
ディクラン有袋類

2
+1(投稿と最新のコメントの両方-素晴らしい論文ですが、目をつぶってはいけません(他の論文と同様))。
usεr11852が復活モニック言う

2
@Dikran(最大の分散を持つLOOCVの)このトピックは、別の非常に興味深い質問で再び出てきました:stats.stackexchange.com/questions/280665、あなたは見てみたいかもしれません。
アメーバは、モニカの復活を

2
k

20

私の意見では、トレーニングデータのセットが少ない場合は、クロスバリデーションは省いてください。この場合、実際に10分割してモデルのトレーニングに残りのデータを使用することを予測することはできません。

一方、大量のトレーニングデータがある場合は、10倍のクロス検証がより良い方法です。クロス検証を1つ除外するには反復が多すぎるため、これらの多くの結果を考慮してハイパーパラメーターを調整する可能性があるためです。そんなに良い考えではありません。

ISLによれば、1つの除外を行うこととk倍のクロス検証の間には、常にバイアスと分散のトレードオフがあります。LOOCV(one out CV)では、各トレーニングセットにn-1個の例が含まれているため、バイアスが低く、分散が大きいテストエラーの推定値が得られます。これは、各反復でトレーニングセットのほぼ全体を使用していることを意味します。これは、トレーニングセット間に多くの重複があるため、分散も大きくなります。したがって、テストエラーの推定値は高い相関関係にあり、テストエラーの推定値の平均値の分散が大きくなります。

k折り畳みCVの場合は逆になります。トレーニングセット間のオーバーラップが比較的少ないため、テストエラーの推定値の相関が低くなり、その結果、平均テストエラー値はLOOCVほど分散しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.