Gitte VanwinckelenとHendrik Blockeelによるこの2012年の記事に出くわしたのは、繰り返しの交差検証の有用性に疑問を投げかけることでした。
著者は、同じサンプルデータセットがリサンプリングされているため、繰り返し交差検証を行うとモデル予測の分散が減少する一方で、リサンプリングされた交差検証の推定値の平均は真の予測精度の偏った推定値に収束し、したがって有用ではないことを実証しました。
これらの制限にもかかわらず、相互検証を繰り返し使用する必要がありますか?
Gitte VanwinckelenとHendrik Blockeelによるこの2012年の記事に出くわしたのは、繰り返しの交差検証の有用性に疑問を投げかけることでした。
著者は、同じサンプルデータセットがリサンプリングされているため、繰り返し交差検証を行うとモデル予測の分散が減少する一方で、リサンプリングされた交差検証の推定値の平均は真の予測精度の偏った推定値に収束し、したがって有用ではないことを実証しました。
これらの制限にもかかわらず、相互検証を繰り返し使用する必要がありますか?
回答:
論文が作っているように見える議論は私には奇妙に見える。
論文によると、CVの目標は、モデルが観測されたデータセットトレーニングされた場合、新しいデータでのモデルの予想される予測性能であるを推定することです。私たちが行ったとき倍CVを、我々は推定得るAこの番号のを。ためのランダム分割のSにk個の折り目、これはランダム変数であるA〜F (A )との平均値μ Kおよび分散σ 2 kは。対照的に、n回繰り返されたCVは同じ平均の推定値を生成しますが、分散より小さい σ 2 K / N。
明らかに、。このバイアスは、私たちが受け入れなければならないものです。
ただし、予想されるエラーより小さくするために大きくなりN、とのために最大になり、N = 1、少なくとも約合理的な仮定の下でF (A )、例えばときA ˙ 〜 N(μ K、σ 2 K / N )。言い換えれば、繰り返しCVは、より正確な見積もりを取得することを可能にするμ kはそれは、より正確な見積もり与えるので、それは良いことである。
したがって、繰り返されるCVは、繰り返されないCVよりも厳密に正確です。
著者はそれについて議論しません!代わりに、彼らは、シミュレーションに基づいて、
[CVを繰り返すことにより]分散を減らすことは、多くの場合、あまり有用ではなく、本質的に計算リソースの浪費です。
これだけの手段彼らのシミュレーションではかなり低かったです。実際、彼らは使用最低サンプルサイズでした200を小型得大きな十分おそらくである、σ 2 kは。(非反復CVと30回反復CVで得られる推定値の差は常に小さくなります。)サンプルサイズが小さい場合、反復間の大きな分散が予想されます。
警告:信頼区間!
著者が作成している別のポイントは
信頼区間のレポート[繰り返し交差検証]は誤解を招きます。
それらは、CV反復全体の平均の信頼区間を指しているようです。これは報告する意味のないことだと完全に同意します!回以上のCVが繰り返され、小さなこのCIはなりますが、誰もが私たちの見積りの周りのCIに興味を持っていません!当社は、当社の見積りの周りのCIを気α 2。
著者はまた、非反復CVのCIを報告しますが、これらのCIがどのように構築されたかは完全にはわかりません。これらは倍にわたる平均のCIであると思います。これらのCIもほとんど意味がないと私は主張します!
その例の1つを見てみましょうadult
。NBアルゴリズムと200サンプルサイズのデータセットの精度です。非反復CVで78.0%、CI(72.26、83.74)、10回反復CVで79.0%(77.21、80.79)、および30回反復CVで79.1%(78.07、80.13)を取得します。最初のCIを含め、これらのCIはすべて役に立たない。最良の推定値 79.1パーセントです。これは200回のうち158回の成功に相当します。これにより、95%の二項信頼区間(72.8、84.5)が得られます。これは、最初に報告されたものよりも広くなっています。何らかの CI を報告したい場合、これが報告するものです。
より一般的な警告:CVの分散。
あなたは繰り返しCVを書いた
交差検定の分散を減らすための一般的な手法になりました。