leave-one-out対K-foldクロス検証のバイアスと分散


83

モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか?

私の質問はこのスレッドによって部分的に動機づけられています:最適な折り畳み数-交差検証:leave-one-out CVは常に最良の選択ですか?K。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。K

しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。K

または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。KKK

上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?


2
こんにちはアメリオ。Xavierによる新しい回答とJake Westfallによるこの古いQ stats.stackexchange.com/questions/280665で提供されているシミュレーションは、どちらもとともに分散が減少することを示していることに注意してください。これは、現在受け入れられている回答と、最も以前に受け入れられた(以前に受け入れられた)回答とも直接矛盾します。分散がとともに増加し、LOOCVで最高であるという主張を裏付けるシミュレーションはどこにも見られません。KKK
アメーバ

2
ありがとう@amoeba両方の回答の進捗状況を見ています。私は間違いなく、受け入れられた答えが最も有用で正しいものを指すように最善を尽くします。
アメリオバスケスレイナ

1
@amoebaを参照してくださいresearchgate.net/profile/Francisco_Martinez-Murcia/publication/…whhichはkとの分散の増加を示しています
Hanan Shteingart

彼がそのグラフをどこから得ているかを見るのは興味深いでしょう。論文を最初に見ると、彼の説明が導入セクションに収まるように構成されているように見えます。おそらく、その実際のシミュレーションが、その説明はない、それは確かに低くなっている彼の実際の実験からの結果ではありません...
ザビエル・ブーレSicotte

回答:


51

leave-one-out CVで学習したモデルの分散が大きいのはなぜですか?

[TL:DR]最近の投稿と討論の要約(2018年7月)

このトピックは、このサイトと科学文献の両方で、相反する見解、直感、結論とともに広く議論されています。この質問が最初に尋ねられた2013年に戻ったとき、支配的な見方は、LOOCV がサイズのサンプルからモデルを生成するトレーニングアルゴリズムの予想される一般化誤差のより大きな分散につながるということでした。n(K1)/K

しかし、この見方は特殊なケースの誤った一般化であるように見え、正しい答えは「それは依存する...」であると主張します。

言い換えイヴGrandvaletにの作者2004紙を次のように私は直感的な議論を要約します話題に:

  1. 相互検証が独立した推定値を平均化していた場合、 1つのデータポイントのみをフォールド間でシフトしているため、フォールドワンアウトCVでは、モデル間で比較的低い分散が見られるはずです。
  2. これは、トレーニングセットが高度に相関している場合は当てはまりません。相関はKとともに増加する可能性があり、この増加は2番目のシナリオの分散の全体的な増加の原因となります。直観的には、そのような状況では、Leave-one-out CVは存在する不安定性を盲目にするかもしれませんが、トレーニングデータの単一のポイントを変更してもトリガーされない場合があり、トレーニングセットの実現に大きく影響します。

このサイトでの私や他の人の実験的シミュレーションと、以下にリンクされている論文の研究者のシミュレーションは、このトピックに普遍的な真実がないことを示しています。ほとんどの実験では、単調減少または一定の分散がありますが、一部の特殊なケースでは増加する分散が示されます。KKK

この回答の残りの部分では、玩具の例のシミュレーションと非公式の文献レビューを提案します。

[更新] ここでは、外れ値が存在する不安定なモデルの代替シミュレーションを見つけることができます。

減少/一定の分散を示すおもちゃの例からのシミュレーション

次のおもちゃの例を考えてみましょう。ここでは、次数4の多項式をノイズの多い正弦曲線に当てはめています。このモデルは、学習曲線で示されるように、過剰適合のために小さなデータセットではうまく機能しないと予想されます。

ここに画像の説明を入力してください

ESLIIページ243からの図を再現するために、ここで1-MSEをプロットすることに注意してください。

 方法論

あなたは、このシミュレーション用のコードを見つけることができるここに。アプローチは次のとおりです。

  1. 配布から10,000ポイントを生成するの真の分散知られていますϵsin(x)+ϵϵ
  2. 反復回(例えば、100または200倍)。各反復で、元の分布からポイントをリサンプリングしてデータセットを変更しますNiN
  3. 各データセットについて: i
    • いずれかの値をK倍のクロス検証を実行K
    • Kフォールド全体の平均二乗平均誤差(MSE)を保存する
  4. のループが完了したら、同じ値についてデータセット全体のMSEの平均と標準偏差を計算しますi KiiK
  5. 範囲すべてのに対して上記の手順を繰り返し、One Out CV(LOOCV)を終了します。{ 5 N }K{5,...,N}

データセット全体のMSEのバイアスと分散に対する影響。IKi

左側:200データポイントのKfolds、 右側:40データポイントのKfolds

ここに画像の説明を入力してください

MSE(データセットi全体)とKfoldsの標準偏差

ここに画像の説明を入力してください

このシミュレーションから、次のように思われます:

  • 小さな数のデータポイントの増加なるまで程度が有意にバイアスと分散の両方を向上させることができます。が大きい場合、バイアスにも分散にも影響はありません。K K = 10 KN=40KK=10K
  • 直観は、有効なトレーニングサイズが小さすぎると、特に場合、多項式モデルが非常に不安定になることです。K5
  • 大きい場合、を増やしてもバイアスと分散の両方に特に影響はありません。KN=200K

非公式の文献レビュー

次の3つの論文は、相互検証のバイアスと分散を調査しています

コハビ1995

このペーパーは、LOOCの分散が大きいという議論のソースと呼ばれることがよくあります。セクション1:

「たとえば、leave-oneoutはほとんど偏りがありませんが、ばらつきが大きく、信頼性の低い推定値につながります(Efron 1983)」

この声明は、コハビではなく1983年のエフロンからのものであると思われるため、多くの混乱の原因となっています。コハビの理論的論証と実験結果はどちらもこの声明に反しています。

結果2(CVの分散)

データセットとインデューサーを指定します。誘導子が、さまざまな値に対するk-fold CVのフォールドのテストインスタンスを削除することによって引き起こされる摂動の下で安定している場合、推定値の分散は同じになります。k

実験 Kohaviは、彼の実験で、UC Irvineリポジトリの複数のデータセットにわたるC4.5決定木とNaive Bayes分類器の2つのアルゴリズムを比較しました。彼の結果は以下のとおりです。LHSは精度対フォールド(すなわちバイアス)であり、RHSは標準偏差対フォールドです。

ここに画像の説明を入力してください

実際、3つのデータセットの決定木のみがKの増加に対して明らかに高い分散を持っています。他の結果は、減少または一定の分散を示しています。

最後に、結論をより強く表現することはできますが、LOOの分散が大きくなるという議論はありません。まったく逆です。セクション6から。

「中程度のk値(10〜20)を使用したk倍交差検証は、分散を低減します。k減少(2〜5)およびサンプルが小さくなると、トレーニングセット自体の不安定性による分散があります。

チャンとヤン

著者はこのトピックについて強い見解を持ち、セクション7.1に明確に述べています。

実際、最小二乗線形回帰では、Burman(1989)は、kフォールドCVの中で、予測誤差の推定において、LOO(すなわち、nフォールドCV)が最小の漸近的バイアスと分散を持つことを示しています。...

...次に、理論計算(Lu、2007)は、LOOがすべてのdelete-n CVの中で最小のバイアスと分散を同時に持つことを示しています。

実験結果 同様に、Zhangの実験は、図3と図5のTrueモデルと間違ったモデルについて以下に示すように、Kの分散が減少する方向を指しています。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

とともに分散が増加する唯一の実験は、なげなわモデルとSCADモデルです。これについては、31ページで次のように説明されています。K

ただし、モデル選択が関係する場合、大きなモデル空間、小さなペナルティ係数、および/またはデータ駆動ペナルティ係数の使用によりモデル選択の不確実性が高くなるため、LOOのパフォーマンスは変動性が悪化します。


11
+11!最後に、明示的なシミュレーションによる答え!そして、それは現在受け入れられており、最も支持されている答えの結論に直接反します。あなたの結論に関して:実際に「モデルの安定性が重要な要因である」場合、分散がとともに増加するシミュレーションを設定できるはずです。私は2つのシミュレーションを見ました:あなたのシミュレーション、そしてこの1つと両方は、分散が減少するか一定のままであることを示しています。分散が増加するシミュレーションを見るまで、これまでにないほど懐疑的なままです。KKK
アメーバ

4
@amoebaは、LOOCVが失敗する場合です。n個のデータポイントと次数nの補間多項式を考えます。次に、既存の各ポイントに複製を追加して、データポイントの数を2倍にします。LOOCVは、エラーがゼロであることを示しています。有用な情報を得るには、折り目を下げる必要があります。
ポール

2
このディスカッションに興味のある
Xavier Bourret Sicotte

1
たとえばが繰り返しを許可するという事実を考慮しましたか?これはLOOCVのオプションではないため、考慮する必要があります。k = 10kfoldk=10
D1X

1
@amoeba:コハビ/ LOOと分散について。一部の分類モデルのLOOは非常に(驚くほど)不安定になる可能性があることがわかりました。これは、サンプルサイズが小さい場合に特に顕著であり、これは、常にあまり代表されていないクラスに属するテストケースに関連していると思います。サンプル全体:バイナリ分類では、層化されたleave-2-outにはこの問題はないようです(ただし、広範囲にテストしませんでした)。この不安定性は観測された分散に追加され、LOOをkの他の選択肢から突き出させます。IIRC、これはコハビの調査結果と一致しています。
cbeleites

45

倍クロスバリデーション我々は、データセットに分割同じサイズの非重複サブセット。各フォールドについて、モデルはでトレーニングされ、その後で評価され。たとえば、予測誤差の相互検証推定量は、各フォールドで取得された予測誤差の平均として定義されます。k S S i S S i S ikkSSiSSiSi

モデルが評価されるテストセット間にオーバーラップはありませんが、すべてのトレーニングセット間にオーバーラップがあります。オーバーラップはleave-one-out交差検証で最大です。これは、学習したモデルが相関する、つまり依存し、相関変数の合計の分散が共分散の量とともに増加することを意味します(ウィキペディアを参照)。k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

したがって、leave-one-out交差検定は、が小さいCVと比較して大きな分散を持ちます。k

ただし、2重交差検証ではトレーニングセットが重複するという問題はありませんが、トレーニングセットは元のサンプルの半分のサイズであるため、多くの場合、大きなばらつきもあります。適切な妥協点は、10倍の相互検証です。

このテーマに関連する興味深い論文(さらに多く):


5
+1(ずいぶん前)ですが、今あなたの答えを読み直して、次のビットに混乱しています。2重CVは、「トレーニングセットのサイズが半分しかないため、多くの場合、分散も大きい」と言います。トレーニングセットを2倍小さくすると問題になることを理解していますが、なぜ「大きな分散」が得られるのですか?代わりに「大きなバイアス」ではないでしょうか?次に、折り畳みの数を選択するという問題全体が、バイアスと分散のトレードオフになります。
アメーバ

1
@Sebastianこの文脈での「分散」は、「累積」モデルのパフォーマンスの分散(すべてのフォールドの合計)を指し、最後の2つの文で示すように、フォールド自体の分散ではありません。k
アメーバ

3
いくつかの文献を調べていました。興味深いことに、統計学習の概要で、ジェームズ、ウィッテン、ハスティー、およびティブシラーニは、LOOCVは「単一の観測(x1、y1)に基づいているため、非常に変化しやすい」と述べています。統計学習の要素で、Hastie&Tibshirani&Friedmanは、LOOCVは「N個のトレーニングセットが互いに非常に類似しているため、分散が大きくなる可能性がある」と述べています。

2
これは間違っています。分散は =なければなりません。列挙子は大きくなりますが、分母も大きくなります。var[Σxi/n]ΣΣcov(xi,xj)/n2
北の

3
いいえ、それは実際には「全体のポイント」ではありません。人々は常にk-fold CVを使用して単一のグローバル推定値を取得します。確かに他の方法で複数のフォールド推定値を使用することもできますが、それらを組み合わせることは、モデリング手法のホールドアウトパフォーマンスを推定する最も一般的な方法の1つです。そして、それがまさにESLのEq 7.48が行っていることです。
ポール

27

[...]私の直観では、leave-one-out CVでは、フォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間でトレーニングセットが実質的に重なります。K

各leave-one-outフォールドでモデルが行う予測について考えている場合、あなたの直感は賢明だと思います。これらは、相関/非常に類似したデータ(完全なデータセットから1つのデータポイントを引いたもの)に基づいているため、同様の予測を行います。つまり、変動性が低くなります。

しかし、混乱の原因は、人々がLOOCVが高い変動性につながることを話すとき、彼らがホールドアウトセットのクロスバリデーションのループの間に構築された多くのモデルによって作られた予測について話していないことです。代わりに、彼らは、新しいトレーニングセットで正確なモデル/パラメーターをトレーニングした場合に、最終的に選択したモデル(LOOCVで選択したモデル)がどれだけ変動するかについて話します。この場合、変動性が高くなります。

なぜばらつきが大きいのですか?これを少し簡単にしましょう。LOOCVを使用してモデルを選択する代わりに、トレーニングセットが1つだけあり、そのトレーニングデータを使用して構築されたモデルをテストしました。たとえば、100の単一テストデータポイントで100回(データポイントはトレーニングセットの一部ではありません) 。これらの100のテスト全体で最高のパフォーマンスを発揮するモデルとパラメーターセットを選択した場合、この特定のトレーニングセットがテストデータの予測に非常に適したものを選択します。特定のトレーニングデータセットとホールドアウトデータの間の100%の関連付けをキャプチャするモデルを選択できます。残念ながら、トレーニングデータとテストデータセットとの関連の一部はノイズまたは偽の関連になります。これは、テストセットが変化し、こちら側でノイズを特定できるにもかかわらず、トレーニングデータセットはそうではなく、説明された分散がノイズによるものかどうかを判断することはできません。言い換えれば、これが意味することは、この特定のトレーニングデータセットに予測をオーバーフィットさせたことです。

ここで、新しいトレーニングセットで同じパラメーターを使用してこのモデルを複数回再トレーニングすると、どうなりますか?まあ、トレーニングデータの特定のセットにオーバーフィットしているモデルは、トレーニングセットが変更されると予測の変動につながります(つまり、トレーニングセットをわずかに変更すると、モデルは予測を大幅に変更します)。

LOOCVのすべてのフォールドは高度に相関しているため、上記のケースに似ています(同じトレーニングセット、異なるテストポイント)。言い換えると、その特定のトレーニングセットがそれらのテストポイントと何らかの疑似相関を持っている場合、テストセットが変化してもトレーニングセットは変化しないため、モデルはどの相関が実際でどれがスプリアスであるかを判断するのが困難になります。

対照的に、相関の少ないトレーニングフォールドは、モデルが複数の一意のデータセットに適合することを意味します。したがって、この状況では、別の新しいデータセットでモデルを再トレーニングすると、同様の予測(つまり、小さなばらつき)が発生します。


4
この答えは、受け入れられた答えよりも多くのことを明確にし、特に受け入れられた答えを説明していると思います。
-D1X

「今、新しいトレーニングセットで同じパラメータを使用してこのモデルを複数回再トレーニングすると、どうなりますか?」とはどういう意味ですか?トレーニングとは、パラメーターを見つけることです。ハイパーパラメーターを言うつもりでしたか?
MiloMinderbinder

14

この質問はかなり古いですが、これをもう少し明確にする価値があると思うので、追加の回答を追加したいと思います。

私の質問はこのスレッドによって部分的に動機付けられています:K-fold交差検証の最適な折り畳み数:leave-one-out CVは常に最良の選択ですか?。そこでの回答は、Leave-one-out交差検定で学習したモデルは、通常のK倍交差検定で学習したモデルよりも分散が大きく、leave-one-out CVがより悪い選択になることを示唆しています。

その答えはそれを示唆しておらず、そうすべきではありません。そこで提供されている答えを確認しましょう。

Leave-one-out交差検証は、一般にK倍よりも良いパフォーマンスをもたらさず、比較的高い分散を持っているため、悪化する可能性が高くなります(つまり、データの異なるサンプルの値は、 k-fold cross-validation)。

それはパフォーマンスについて話しています。ここで、パフォーマンスはモデル誤差推定器のパフォーマンスとして理解する必要があります。kフォールドまたはLOOCVで推定しているのは、これらの手法を使用してモデルを選択し、それ自体で誤差推定を提供する場合の両方のモデルのパフォーマンスです。これはモデルの分散ではなく、(モデルの)誤差の推定量の分散です。以下の例(*)を参照してください。

ただし、私の直感では、leave-one-out CVではKフォールドCVよりもモデル間の分散が相対的に低くなるはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。

実際、モデル間の分散は低く、それらは共通の観測値を持つデータセットでトレーニングされています!増加、それらは(何stochasticityがないと仮定して)ほぼ同じモデルになります。n2n

上記の推定量は、これらの相関量の平均であり、相関データの平均の分散は非相関データの分散よりも大きいため、正確にこの低分散とモデル間の高い相関により、上記の推定量の分散が大きくなります。ここに理由が示されています: 相関データと非相関データの平均の分散

または、K折り畳みCVでKが低い場合、他の方向に進むと、トレーニングセットは折り畳み全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。

確かに。

上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?

上記の引数は正しいです。さて、質問は間違っています。モデルの分散はまったく異なるトピックです。ランダム変数がある場合、分散があります。機械学習では、特に多くの確率変数を扱いますが、これらに限定されません。各観測値は確率変数です。サンプルはランダム変数です。モデルは、ランダム変数から学習されるため、ランダム変数です。母集団に直面したときにモデルが生成する誤差の推定量は、ランダム変数です。最後に重要なことですが、母集団にノイズが含まれている可能性が高いため、モデルの誤差は確率変数です(これは既約誤差と呼ばれます)。モデル学習プロセスに確率が関与している場合は、さらにランダム性が存在する可能性があります。これらすべての変数を区別することは非常に重要です。


(*)例:モデルが母集団全体にわたって生成するエラーとしてを理解する必要がある場合、実際のエラーを持つモデルがあるとします。この母集団から抽出されたサンプルがあるため、そのサンプルに対してクロス検証手法を使用して推定値を計算します。これは名付けられます。すべての推定量と同様に、はランダム変数です。つまり、独自の分散と独自のバイアスます。は、LOOCVを使用する場合の正確な値です。LOOCVは、より少ないバイアス推定であるがとerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<n、より多くの分散があります。バイアスと分散の間の妥協が望ましい理由をさらに理解するためにと仮定し、2つの推定量:とあると仮定します。最初のものはこの出力を生成していますerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
2番目のものは
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

最後のものは、より多くのバイアスがありますが、はるかに少ない分散と許容可能なバイアス、つまり妥協バイアスと分散のトレードオフ)があるため、優先されるべきです。バイアスが大きい場合は、分散をあまり低くしたくないことに注意してください。


追記:この回答では、このトピックを取り巻く誤解(私が考えていること)を明確にしようとします。特に、ポイントごとに、そして質問者が持つ疑問に正確に答えようとします。特に、私たちが話している分散を明確にしようとしています。これは本質的にここで求められていることです。すなわち、私はOPによってリンクされている答えを説明します。

そうは言っても、私はこの主張の背後にある理論的根拠を提供していますが、それを支持する決定的な経験的証拠はまだ見つかっていません。とても注意してください。

理想的には、まずこの投稿を読んでから、Xavier Bourret Sicotteの回答を参照してください。これは、経験的な側面に関する洞察に富んだ議論を提供します。

最後になりましたが、何か他のものを考慮しなければならない:あなたが増加するにつれて、分散場合でも平坦なまま(私たちは経験的にそうでないことが証明されていないように)、と十分に小さいが、繰り返し(することができます繰り返しのk倍、)これは間違いなく、例えば、行われるべきである。これにより分散が効果的に削減され、LOOCVを実行する際のオプションではありません。kkfoldk10 × 10 f o l d10 × 10fold


2
Xavierによる新しい回答とJake Westfallによるこの古いQで提供されているシミュレーションは、どちらもとともに分散が減少することを示していることに注意してください。これはあなたの答えと直接矛盾します。これまでのところ、分散がとともに増加し、LOOCVで最高であるという主張をサポートするシミュレーションを見たことはありません。KKK
アメーバ

3
それらは、応じて分散が一定のポイントまで減少し、そこで一定になることを示しています。理論的には、相関するサンプルの平均の分散が大きいことが示されているため、結果は理論的に示されています。そうは言っても、あなたは正しい、これがないことを示す実際の実験。それを構築するために最善を尽くします。kN
D1X

はい、がからに減少したのは、Xavierの回答の誤りによるものです。現在は修正されており、この範囲で分散は実際に同じままです。2つの独立したシミュレーションが同じ効果を示すことを考えると、LOOCVの分散が大きくなると予想されることに懐疑的です。あなたの理論的議論は非常に手間がかかります。相関するサンプルの平均は、他のすべてが同じ場合にのみ分散が大きくなります。10倍CVとN倍CVで他のすべてが同じであることは明らかではありません。シミュレーションを楽しみにしています。K = 10 K = NKK=10K=N
アメーバ

1
まだこれらの論文を見ていないので、時間があればそれらを見ていきます。それでも、OLS線形モデルは非常に単純なモデルであり、実際、低分散の影響を受けます。それだけでなく、彼らはクロスバリデーションのための閉じた公式を持っています。
D1X

1
編集内容を+1すると、答えがより明確になります-トレーニングセット間の相関の影響について調整されます->分散が大きくなります。ただし、実際には(実験的に)トレーニングセットは常に相互に相関しているとは限りません。
ザビエルバレットシコット

12

問題は確かに微妙です。しかし、LOOCVの分散が一般的に大きいことは間違いです。最近の論文では、いくつかの重要な側面について議論し、交差検証に関する一見広く見られるいくつかの誤解に対処しています。

Yongli ZhangおよびYuhong Yang(2015)。モデル選択手順を選択するための相互検証。Journal of Econometrics、vol。187、95-112。

以下の誤解は、今でも文献に頻繁に見られます。

「Leave-one-out(LOO)CVは、leave-more-out CVよりもバイアスは小さくなりますが、分散は大きくなります」

このビューは非常に人気があります。例えば、Kohavi(1995、セクション1)は次のように述べています。ただし、この声明は一般的に真実ではありません。

さらに詳細に:

文献には、最近の出版物を含めて、過度に推奨されているものがあります。10倍CVを使用するというKohavi(1995)の一般的な提案は広く受け入れられています。たとえば、Krstajic et al(2014、page 11)は次のように述べています。「Kohavi [6]およびHastie et al [4]は、V-fold交差検定がleave-one-out交差検定に比べて分散が低いことを経験的に示しています」。その結果、彼らはすべての数値調査のために10倍のCV(繰り返し)を推奨しています。私たちの見解では、そのような慣行は誤解を招くかもしれません。まず、CVの使用の目標を考慮しない一般的な推奨事項はありません。特に、候補モデル/モデリング手順のCV精度推定のバイアスと分散の検査は、最適なモデル選択(前述のモデル選択の2つの目標のいずれか)とは非常に異なる場合があります。第二に、精度推定のコンテキストに限定されていても、ステートメントは一般的に正しくありません。不安定性の低いモデル/モデリング手順の場合、LOOの変動性が最も小さいことがよくあります。また、非常に不安定な手順(たとえば、pnがnよりはるかに大きいLASSO)の場合、10倍または5倍のCVは、変動性を抑えながら、バイアスの増加がさらに大きくなるため、LOOよりも大幅に大きいMSEになる可能性があることも実証しました。不安定性の低いモデル/モデリング手順の場合、LOOの変動性が最も小さいことがよくあります。また、非常に不安定な手順(たとえば、pnがnよりはるかに大きいLASSO)の場合、10倍または5倍のCVは、変動性を抑えながら、バイアスの増加がさらに大きくなるため、LOOよりも大幅に大きいMSEになる可能性があることも実証しました。不安定性の低いモデル/モデリング手順の場合、LOOの変動性が最も小さいことがよくあります。また、非常に不安定な手順(たとえば、pnがnよりはるかに大きいLASSO)の場合、10倍または5倍のCVは、変動性を抑えながら、バイアスの増加がさらに大きくなるため、LOOよりも大幅に大きいMSEになる可能性があることも実証しました。

全体として、図3-4から、LOOと繰り返される50倍および20倍のCVがここで最良であり、10倍が著しく悪化し、k≤5は明らかに劣っています。予測パフォーマンスの推定では、LOOは通常、バイアスと分散の両方において、固定モデルまたは非常に安定したモデリング手順(このコンテキストではBICなど)に対して最高または最高であると信じがちです。より不安定な手順のMSE(AICまたはp≫ nのLASSOなど)。10倍CV(繰り返し)は確かに最高の場合もありますが、より頻繁に、厄介な位置にあります:予測エラーの推定ではLOO(バイアス問題のため)よりもリスクが高く、通常は削除よりも悪いです-n / 2 CVで最適な候補を特定します。


4
この答えを少し拡張して、おそらく論文で提起された重要な側面のいくつかを要約することは可能ですか?
シルバーフィッシュ

3
非常に興味深い論文。Kohavi(1995)をレビューする中で、私は多くの声明が信じられないほど広く、ほとんど実証されていないと感じました。これは、重要な尋問が延期されている民俗知恵の論文です。
ポール

3

バイアスと分散について説明する前に、最初の質問は次のとおりです。

相互検証によって何が推定されますか?

Kn(K1)/KKK

K

K

K


4
K

0

もっと簡単な答えがあると思います。kを増やすと、テストセットはますます小さくなります。折り畳みはランダムにサンプリングされるため、小さなテストセットでは発生する可能性がありますが、大きなテストセットでは発生しない可能性があり、ランダムシャッフルの代表ではありません。1つのテストセットには予測が困難なすべてのレコードを、別のテストセットにはすべて簡単なレコードを含めることができます。したがって、フォールドごとに非常に小さなテストセットを予測すると、分散は大きくなります。


Xi

4
クロス検証中にホールドアウトセット全体のモデル予測の変動性について話しているようです。これはあまり興味がないと思います。興味深いのは、最終調整モデルが異なるデータでトレーニングされる場合の予測で大きく変化するかどうかです(つまり、トレーニングセットに応じてモデルの真実の推定値は実際には可変です)
captain_ahab

また、その時点で不明であった連続して予測されたデータのセット間で観測された変動を介していない場合、まだ見えていないデータの予想される変動をどのように推定しますか?ただし、実験的なセットアップだけに起因する変動性は重要ではありません。私の対応:したがって、新しい種類の変動をもたらさない実験的なセットアップを選択する必要があります。そうすると、2種類の変動を区別することはできず、関心のある1種類の範囲を推定することがより困難になります。
デビッドエルンスト

1
シミュレーションでこれを示すことができます(論文を探します)。私たちがお互いに過去を話しているかどうかはわかりませんが、急いで人々がLOOCVのトレーニングセット間の高い相関について話しているとき、彼らは基本的に同じトレーニングデータセットでモデルをトレーニングし続けることを強調します。それは、そのトレーニングデータセットへの過剰適合につながります。トレーニングデータセットを変更すると、テスト例Xの予測が大きく変化します。対照的に、トレーニングセットの相関性が低い場合は、まったく新しいトレーニングセットを使用できます。テスト例Xについても同様の予測が得られます
。– captain_ahab

2つの問題が関係していると思います。kを増やすと、トレーニングセット間のオーバーラップが増加し、その結果が言及されます。(私はそれについて議論していません)同時に、kを増やすと、フォールドあたりのテストセットが小さくなります。つまり、これらのセットでレコードが望ましくない方法でシャッフルされる可能性が高くなります。特定の質問に対して、これが主な理由だと思います。トレーニングセットの重複からの貢献もあります。(テストセットにも重複があるため、繰り返しを使用する場合は3番目の問題があります。)
デビッドエルンスト
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.