予測モデルを評価するために、繰り返し交差検証を使用する必要がありますか?


16

Gitte VanwinckelenとHendrik Blockeelによるこの2012年の記事に出くわしたのは、繰り返しの交差検証の有用性に疑問を投げかけることでした。

著者は、同じサンプルデータセットがリサンプリングされているため、繰り返し交差検証を行うとモデル予測の分散が減少する一方で、リサンプリングされた交差検証の推定値の平均は真の予測精度の偏った推定値に収束し、したがって有用ではないことを実証しました。

これらの制限にもかかわらず、相互検証を繰り返し使用する必要がありますか?


6
私の経験では、交差検証(繰り返しかどうか)は予測精度の非常に良い推定値を与えません。ただし、異なるモデルの予測パフォーマンスを比較する場合に非常に便利です。これはモデルを選択する良い方法ですが、単一のモデルのパフォーマンスを推定する良い方法ではありません。
ヒラメ

@Floundererそれは良い点です。この記事の私の解釈は、繰り返しの交差検証と非反復の交差検証に基づいてモデルの意味のある比較を行うことはできないということです。データから不当な量の情報を絞り込もうとしています。それとも間違っていますか?
ロバートF

回答:


11

論文が作っているように見える議論は私には奇妙に見える。

論文によると、CVの目標は、モデルが観測されたデータセットトレーニングされた場合、新しいデータでのモデルの予想される予測性能であるを推定することです。私たちが行ったとき倍CVを、我々は推定得るAこの番号のを。ためのランダム分割のSk個の折り目、これはランダム変数であるAF A との平均値μ Kおよび分散σ 2 kは。対照的に、n回繰り返されたCVは同じ平均の推定値を生成しますα2SkA^SkA^f(A)μkσk2nが、分散より小さい σ 2 K / Nμkσk2/n

明らかに、。このバイアスは、私たちが受け入れなければならないものです。α2μk

ただし、予想されるエラーより小さくするために大きくなりN、とのために最大になり、N = 1、少なくとも約合理的な仮定の下でF A 、例えばときA ˙ Nμ Kσ 2 K / N 。言い換えれば、繰り返しCVは、より正確な見積もりを取得することを可能にするμ kはE[|α2A^|2]nn=1fAA^˙Nμkσk2/nμkそれは、より正確な見積もり与えるので、それは良いことであるα2

したがって、繰り返されるCVは、繰り返されないCVよりも厳密に正確です。

著者はそれについて議論しません!代わりに、彼らは、シミュレーションに基づいて、

[CVを繰り返すことにより]分散を減らすことは、多くの場合、あまり有用ではなく、本質的に計算リソースの浪費です。

これだけの手段彼らのシミュレーションではかなり低かったです。実際、彼らは使用最低サンプルサイズでした200を小型得大きな十分おそらくである、σ 2 kは。(非反復CVと30回反復CVで得られる推定値の差は常に小さくなります。)サンプルサイズが小さい場合、反復間の大きな分散が予想されます。σk2200σk2

警告:信頼区間!

著者が作成している別のポイントは

信頼区間のレポート[繰り返し交差検証]は誤解を招きます。

それらは、CV反復全体の平均の信頼区間を指しているようです。これは報告する意味のないことだと完全に同意します!回以上のCVが繰り返され、小さなこのCIはなりますが、誰もが私たちの見積りの周りのCIに興味を持っていません!当社は、当社の見積りの周りのCIを気α 2μkα2

著者はまた、非反復CVのCIを報告しますが、これらのCIがどのように構築されたかは完全にはわかりません。これらは倍にわたる平均のCIであると思います。これらのCIもほとんど意味がないと私は主張します!k

その例の1つを見てみましょうadult。NBアルゴリズムと200サンプルサイズのデータ​​セットの精度です。非反復CVで78.0%、CI(72.26、83.74)、10回反復CVで79.0%(77.21、80.79)、および30回反復CVで79.1%(78.07、80.13)を取得します。最初のCIを含め、これらのCIはすべて役に立たない。最良の推定値 79.1パーセントです。これは200回のうち158回の成功に相当します。これにより、95%の二項信頼区間(72.8、84.5)が得られます。これは、最初に報告されたものよりも広くなっています。何らかの CI を報告したい場合、これが報告するものです。μk

より一般的な警告:CVの分散。

あなたは繰り返しCVを書いた

交差検定の分散を減らすための一般的な手法になりました。

μkk=Nk

α1S


1
@cbeleitesがこのスレッドに気付き、ここにコメントするか、自分の答えを残してくれることを願っています:彼女は繰り返しCVを多く使用している(または使用していた)ことを知っており、モデルの安定性の尺度として繰り返しにわたる変動を計算することを提唱したと思います。しかし、私は彼女が繰り返しCIを計算するとは思わない。
アメーバは、モニカを

1
μkα2μkα2μk

1
@RobertF:私は(V&Bの論文に従って)モデルのパフォーマンスを推定することについて話していました。私の論文では、反復CVは非反復CVよりも正確であり、疑いの余地はないと思います(V&Rは、精度の違いは実際にはそれほど重要ではない傾向があると主張します)。二つのモデルを比較するのletのは、あなたがCVを実行し、別のモデルのための一つのモデルと71%のための70%を取得すると言うので、はるかに難しいです。それは「重要な」違いですか?まあ、それは明確な答えのない難しい問題です。そして、それは繰り返される/繰り返されない問題から独立しています。
アメーバは、モニカを


1
σk
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.