leave-one-out交差検証の高い分散

「Leave-one-out」クロス検証は、トレーニングフォールドの大きな重なりのために、分散が大きいことを繰り返し読みました。ただし、その理由はわかりません。トレーニングセットがほぼ同一であるため、相互検証のパフォーマンスが非常に安定（分散が小さい）である必要はありませんか。または、「分散」の概念を完全に間違って理解していますか？

また、LOOがどのように偏りがないかを完全には理解していませんが、大きなばらつきがありますか？LOO推定値が期待値の真の推定値に等しい場合、どのようにして高い分散を得ることができますか？

注：ここに同様の質問があることを知っています：なぜエラーの平均推定値に関するleave-one-out cross-validation（LOOCV）分散が高いのですか？しかし、答えた人はコメントの後半で、賛成にもかかわらず彼の答えが間違っていることに気付いたと言っています。

variance cross-validation bias

— ペガ
ソース

私はその人です:-)が、最初に、混乱を取り除くためにすでに少し前に答えを更新していることに注意してください、そして、第二に、そのスレッド全体が別のスレッドの複製として閉じられます：stats.stackexchange.com/質問/ 61783。あなたはそこを見ましたか？あなたのQも私と同じようです。そこで与えられた答えに不満がある場合、質問をより具体的に定式化することを検討してください。今すぐ締め切りに投票しますが、お気軽にQを編集してください

— 。–アメーバは、2015

交差検証

— アメーバは

それは簡単です。パラメーターの真の値を

ましょう

0.5

$0.5$ 。ます。利回りという推定

利回り公平であり、比較的低い分散を持っていますが、推定することを

も公平であるが、はるかに高い分散を持っています。

0.49, 0.51, 0.49, 0.51...

$0.49, 0.51, 0.49, 0.51...$

0.1, 0.9, 0.1, 0.9...

$0.1, 0.9, 0.1, 0.9...$

— アメーバは、2015

最初の段落について：データセット全体のさまざまな実現における分散について考える必要があります。与えられたデータセットでは、トレーニングセットが非常に交差しているため（実際に言ったように）、LOOCVは各スプリットに対して非常に類似したモデルを実際に生成しますが、これらのモデルはすべて一緒に真のモデルから遠くなる可能性があります。データセット間では、異なる方向に遠く離れているため、分散が大きくなります。それが定性的にそれを理解する方法です。

— アメーバは、2015

@amoeba、これらのコメントを公式の回答に変えてみませんか？

— GUNG -復活モニカ

回答:

この質問は、おそらく分散と交差検証のバイアスの複製として閉じられることになります：なぜ、leave-one-out CVの分散が大きいのですか？、それが起こる前に、私は私のコメントを答えに変えると思います。

また、LOOがどのように偏りがないかを完全には理解していませんが、大きなばらつきがありますか？

簡単な例を考えてみましょう。パラメータの真の値をます。利回りという推定利回り公平であり、比較的低い分散を持っていますが、推定することをも公平であるが、はるかに高い分散を持っています。 $0.5$ $0.49,0.51,0.49,0.51...$ $0.1,0.9,0.1,0.9...$

トレーニングセットがほぼ同一であるため、クロス検証のパフォーマンスは非常に安定（分散が小さい）すべきではありませんか？

データセット全体のさまざまな実現における分散について考える必要があります。特定のデータセットでは、トレーニングセットが非常に交差しているため（正確に気づいたように）、各分割でleave-one-out交差検証により実際に非常に類似したモデルが生成されますが、これらのモデルはすべて真のモデルから遠く離れている可能性があります; データセット間では、異なる方向に遠く離れているため、分散が大きくなります。

少なくともそれは私がそれを理解する方法です。詳細についてはリンクされたスレッドを、さらに詳細については参照された論文を参照してください。

— アメーバはモニカを復活させると言う
ソース

そのため、トレーニングセットが非常に大きいため、データセット全体とほぼ同じであるため（テスト用にデータサンプルが1つだけ残されているため）、低バイアスが与えられます。したがって、ある特定のデータセットについては、非常に優れた推定が期待できます。ただし、フォールドの相関が高いため（クロスバリデーションはその反復で同一のデータでほぼ実行されます）、推定はこの特定のデータセットに非常に固有であり、同じ基礎となる分布からの異なるデータセットのパフォーマンスに大きな差異が生じます。正しい？

— ペガ

私はそれがほとんど正しいと思うが、それを言って注意する必要がありfor one particular dataset we can expect a very good estimationます。データセット固有のパラメータの推定が適切であることを意味すると解釈できると思います。しかし、一般に交差検定は母集団パラメーターを推定することになっています。特定のタイプのモデルが母集団の従属変数についてどの程度うまく予測できるか。そして、私たちはできません、あなたが書いたもののために、LOOCVによるそれの非常に良い推定を期待する（推定はですvery specific for this particular dataset）。

— アメーバは

これはすべて現在の理解であるという警告を追加する必要がありますが、一般に、このトピックは非常に扱いにくく、相互検証の経験は限られています。私は専門家ではありません。

— アメーバは、2015

なぜあなたがそれをトリッキーだと思うのか尋ねてもいいですか？CVに関してはどこに注意すればよいか、知識を深める場所について何かを教えてくれるかもしれないので、興味があります。

— ペガ

受け入れられた答えを与えられていない。このスレッドこの答え、すなわち、中LOOCVの高い分散を言及するために、おそらくあなたはもはや必要、それ故に高分散？しばらくの間これらの質問について考えてきましたが、LOOCVが失敗するというリンクされたスレッドのコメントにPaulのポイントがありますが、連続（「連続」）回帰問題でLOOCVの高い分散の理論的理由を見つけることができませんでしたサンプルに各ポイントの重複が含まれている場合。

— リチャードハーディ

この大きな分散は、トレーニングセットのスペースに関するものです。LOOCVの分散が大きい理由は次のとおりです。LOOCVでは、この観測を除くすべての観測データセットを使用して、観測iなどの各観測の予測誤差を取得します。したがって、iの予測値は現在のデータセットに大きく依存しています。ここで、別の独立したデータセットを観察し、この新しいデータセットにモデルを適合させると仮定します。この新しいモデルを使用して観測値iの予測値を取得すると、予測値はLOOCVによって評価された値とは大きく異なる可能性があります（ただし、平均は正しい（偏りがありません））。

これは、LOOCVのエラー予測の大きな分散の背後にある直観です。

ただし、LOOCVを使用して異なるハイパーパラメーターを持つモデルの結果を比較している場合、予測エラーの真の値が重要でない場合は、LOOCVを使用して予測エラーを安全に推定できると考えています。観察されたトレーニングセットを持つ異なるモデルを比較し、推定される実際の真の誤差を気にしません。

ただし、経験則として、サンプル数が少ない場合はLOOCVを使用し、そうでない場合は、kの値を小さくしてk-fold CVを使用します。

— メディ・ロスタミ
ソース