倍の交差検証での最適な折り畳み数:leave-one-out CVは常に最良の選択ですか?


47

計算能力に関する考慮事項は別として、交差検証での折り畳みの数増やすと、モデルの選択/検証が向上する(つまり、折り畳みの数が多いほど良い)と考えられる理由はありますか?

極端に議論すると、leave-one-out交差検定は必然的に倍交差検定よりも優れたモデルになりますか?K

この質問の背景:私は非常に少数のインスタンス(たとえば、10個の陽性と10個の陰性)で問題に取り組んでおり、私のモデルが一般化できないか、非常に少ないデータで過剰適合することを恐れています。



この質問は、小さなデータセットと「計算能力に関する考慮事項は別として」に制限されるため、重複していません。これは重大な制限であり、この問題は、大きなデータセットと、インスタンス数で少なくとも線形(またはインスタンス数の少なくとも平方根での予測)の計算の複雑さを備えたトレーニングアルゴリズムには適用できません。
セルジュロガッチ16

回答:


46

リーブワンアウトクロスバリデーションは、一般的にK倍よりも高いパフォーマンスにつながり、そしてより多くの可能性が高いとされていません悪化し、それが比較的高い分散を持っているとして、(すなわち、その値は値よりもデータの異なるサンプルのためのより多くの変更しますk-fold cross-validation)。これは、モデル選択基準において悪いことです。これは、パフォーマンスを真に改善するのではなく、特定のデータサンプルのランダムな変動を利用する方法でモデル選択基準を最適化できることを意味します。モデル選択基準。leave-one-out交差検証が実際に使用される理由は、多くのモデルで、モデルの適合の副産物として非常に安価に評価できるためです。

計算コストが主に問題でない場合、より良いアプローチは、k倍交差検証手順を繰り返し実行することです。この場合、k倍交差検証手順は、異なるランダムパーティションで毎回k個の互いに素なサブセットに繰り返されます。これにより、分散が減少します。

パターンが20個しかない場合、モデル選択基準の過剰適合が発生する可能性が非常に高くなります。これは、統計と機械学習の落とし穴です(恥知らずなプラグイン:トピックに関する私の論文を参照)。比較的単純なモデルを選択して非常に積極的に最適化しないようにするか、妥当性によって重み付けされたすべてのモデル選択に対してベイジアンアプローチと平均化を採用する方が良い場合があります。IMHO最適化は統計上のあらゆる悪の根源です。そのため、必要がない場合は最適化しないようにし、実行するときには常に注意して最適化することをお勧めします。

また、モデル選択を実行する場合、パフォーマンス推定も必要な場合は、ネストされた交差検証のようなものを使用する必要があります(つまり、モデル選択手順の不可欠な部分としてモデル選択を検討し、それを交差検証する必要があります)同じように)。


8
+1。あなたのような私のメッセージ...「最適化は、統計上の諸悪の根源である」
復活モニカ- S. Kolassa

5
@DikranMarsupialに感謝します。私はまったく従いません。leave-one-outで学習されたモデルは、通常のk倍交差検証よりも高い分散を持つのはなぜですか 私の直感では、フォールド間でデータポイントを1つしかシフトしていないため、フォールド間でトレーニングセットが大きく重複しているため、モデル間の差異はほとんどないと予想されます。または、Kフォールドで他の方向に進むと、Kが低い場合、各フォールドのトレーニングセットはまったく異なり、結果のモデルは異なる可能性が高くなります。私が間違っている?
アメリオバスケスレイナ

それはそれ自体非常に良い質問なので、新しい質問として質問することをお勧めします。そして、私はそれに答える方法について考えます!
ディクランマースピアル

ありがとう@DikranMarsupialあなたのアドバイスに従い、ここで別の質問を始めました。
アメリオバスケスレイナ

1
@DikranMarsupial この回答の「統計の最適化」コメントに触発されたスレッドをもう1つ始めたことをここで言及すると思いました。あなたのコメントは、私が慣れているより広い視野から過剰適合を見るようにさせました。
アメリオバスケスレイナ

8

学習曲線を考慮してK折り数を選択する

K

K

要約すると、与えられたトレーニングセットサイズで学習曲線にかなりの勾配がある場合、5倍または10倍の交差検証は真の予測誤差を過大評価します。このバイアスが実際に欠点であるかどうかは、目的に依存します。一方、leave-one-out相互検証のバイアスは低くなりますが、分散が大きくなる可能性があります。

おもちゃの例を使用した直感的な視覚化

この議論を視覚的に理解するために、次のおもちゃの例を考えてみましょう。ここでは、次数4の多項式をノイズの多い正弦曲線に当てはめています。

ここに画像の説明を入力してください

1±

ここに画像の説明を入力してください

議論を議論する

モデルのパフォーマンスは、トレーニングサイズが50観測値に増加するにつれて大幅に向上します。たとえば、数をさらに200に増やしても、わずかな利点しかありません。次の2つのケースを考慮してください。

  1. 5K

  2. 505K

ここに画像の説明を入力してください

[更新]-方法論に関するコメント

あなたは、このシミュレーション用のコードを見つけることができるここに。アプローチは次のとおりです。

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Kフォールド全体の平均二乗平均誤差(MSE)を保存する
  4. iiK
  5. K{5,...,N}

別のアプローチは、各反復で新しいデータセットをリサンプリング、代わりに毎回同じデータセットをシャッフルすることです。これは同様の結果をもたらすようです。



1MSE1112

MSE=Var+Bias2ϵU(.5,.5)1/12(ba)21/12
ザビエル・バレット・シコット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.