Leave-one-out相互検証に関するShaoの結果はいつ適用されますか?


22

Jun Shaoは、彼の論文「Cross-Validationによる線形モデル選択」で、多変量​​線形回帰の変数選択の問題について、leave-one-out相互検証(LOOCV)の方法が「漸近的に一貫していない」ことを示しています。平易な英語では、変数が多すぎるモデルを選択する傾向があります。シミュレーション研究で、Shaoは、わずか40回の観測であっても、LOOCVが他の交差検証手法よりも劣っていることを示しています。

この論文は多少議論の余地があり、多少無視されています(公開から10年後、私の計量化学の同僚はそれを聞いたことがなく、変数選択にLOOCVを喜んで使用していました...)。また、その結果は元の限られた範囲をいくらか超えているという信念もあります(私はこれに罪を犯しています)。

それでは、これらの結果はどこまで拡大するのでしょうか?次の問題に適用できますか?

  1. ロジスティック回帰/ GLMの変数選択?
  2. Fisher LDA分類の変数選択?
  3. 有限(または無限)カーネルスペースを持つSVMを使用した変数選択?
  4. 分類におけるモデルの比較、異なるカーネルを使用するSVMなど
  5. 線形回帰のモデルの比較、たとえばMLRとリッジ回帰の比較?

ケモメトリックスの本には何かがあるはずです。LOOを使用していることを知っている唯一の人は、LOOも使用しています。

回答:


14

Shaoの結果が適用可能かどうかを判断する前に、モデルの目的を指定する必要があります。たとえば、目的が予測である場合、LOOCVは適切であり、変数選択の不整合は問題になりません。一方、目的が重要な変数を特定し、それらが応答変数に与える影響を説明することである場合、Shaoの結果は明らかに重要であり、LOOCVは適切ではありません。

AICは漸近的にLOOCVであり、BICはleave- -out CV と漸近的に同等です。ここで、v = n [ 1 1 /log n 1 ] ---線形モデルのみのBIC結果。したがって、BICは一貫したモデル選択を提供します。したがって、Shaoの結果の簡単な要約は、AICは予測には有用ですが、BICは説明には有用であるということです。vv=n[11/(log(n)1]


1
Shaoは、nが増加する間にが固定されている場合、k折り畳みCVが矛盾することを示したと考えています。kn
みすぼらしいシェフ

1
BICはnでk成長しています。
ロブハインドマン

1
Shao論文の* IC <-> * CVの対応は線形モデルでのみ機能し、BICは特定のkのk-fold CVのみと同等であることを静かに思い出します。

実際、Shaoは、 as n inf k k 1 k n v / n = 1 / k kでない限り、CVが矛盾することを示していると思いますnv/n1ninfで。ここで、はテストセットのサンプル数です。したがって、k分割CVは、変数選択に関して常に一貫性がありません。誤解していませんか?K倍CV私は内に試料を分割する意味上のグループや研修、その後繰り返し、それらの、およびそれらの1にテスト回。次いでのための 1に近づくことはない倍CV、nvkkkk1knv/n=1/kk
shabbychef

3
@mbq:いいえ-Stone 1977によるAIC / LOO証明は線形モデルを想定していませ。このため、Shaoの結果とは異なり、広く引用されています。たとえば、EOSLまたは計算統計ハンドブックのモデル選択の章、またはモデル選択に関する実際の優れた章/論文を参照してください。結果を導き出すためにフィッシャーの情報/スコアを計算する必要を回避する方法には多少すっきりしているので、1ページより長く、読む価値があるだけです。
アルス

7

この論文は多少議論の余地があり、いくらか無視されています

実際にはそうではありませんが、モデル選択の理論が関係する場所では十分に考慮されていますが、間違いと誤解されています。本当の問題は、それが実際のモデリングの実践にどの程度関連しているかです。LOOCVが実際に矛盾していることを調査および判断するために提案するケースのシミュレーションを実行するとします。それが得られる唯一の理由は、すでに「真の」モデルを知っているため、「真の」モデルを回復する確率が1に収束しないと判断できるためです。現象は線形モデルによって記述され、「真の」モデルは考慮中のモデルのサブセットであるということですか?

シャオの論文は、理論的枠組みを前進させる上で確かに興味深いものです。それはある程度の明確ささえ提供します。「真の」モデルが実際に検討されている場合、私たちは一貫性のある結果を得ることができます。しかし、私があなたが説明するケースの実際のシミュレーションがどれほど面白いかはわかりません。これが主に、EOSLのようなほとんどの本がShaoの結果にそれほど焦点を合わせておらず、代わりにモデル選択の基準としての予測/一般化エラーに焦点を当てている理由です。

編集:あなたの質問への非常に短い答えは次のとおりです。Shaoの結果は、最小二乗推定、二次損失関数を実行しているときに適用されます。広くない。(私はあなたが一貫性と効率性を持つことができるかどうかを調査したYang(2005 ??)による興味深い論文があったと思います。


野生の真のモデルを知っているかどうかは関係ないと思います。「真の」モデルがある場合、私はそれを見つける可能性が高い方法を好むでしょう。
みすぼらしいシェフ

2
@shabbychef:同意しません。しかし、ノート:「そこに『真』のモデルであれば、」そして、それはあなたがこの先験的知っているだろうか...検討中ですか?
アルス

1
また、私の2番目の段落が実際にコメントの要点を示していることにも注意してください。これは素晴らしいプロパティですが、実際にどのように適用できるかは明確ではありません。ある意味では慰めですが、見当違いかもしれません。
アルス

2
@ars-「true」モデルの「線形性」が線形モデルから「true」モデルを回復する唯一の方法ではないことに注意してください。「true」モデルの非線形成分がノイズ項によってうまくモデル化できる場合(例えば、非線形効果は互いに打ち消し合う傾向がある場合)、線形モデルを「true」と合理的に呼ぶことができます。これは、線形テイラー級数の残りが無視できると仮定することに似ています。
確率論的

1
v

6



10/101


証明を超えて、たとえば、私がリストした5つのケースのいずれかのシミュレーション研究があるかどうか疑問に思っています。
みすぼらしいシェフ

作りたい?

2
私がやります; ただし、ここで結果を共有するには、さらに多くのRを学習する必要があります。
みすぼらしいシェフ

1
@shabbychef:これをやることになったことがありますか?ちなみに、変数選択にCVを使用するまたは使用しないケモメトリックスをまだカウントしている場合は、それを拒否する人の側でカウントできます。a)私はまだ実際のデータを持っていないからです。単一のモデル比較でさえ十分なケース(サンプル)を設定し、b)分光データの場合、通常、関連情報はスペクトルの大部分で「スミア」されているので、ハード変数選択を行わない正則化を好みます。
cbeleitesはモニカをサポートします

1

1)@arsの回答では、Yang(2005)の「AICとBICの強みを共有できますか?」。大まかに言って、一貫性(実際に正しいモデルが存在し、検討中のモデルに含まれている場合は正しいモデルを選択する傾向がある)と効率(最低平均を達成する)の両方を達成するモデル選択基準を持つことはできないようです選択したモデル間の平均二乗誤差)。平均して適切なモデルを選択する傾向がある場合は、わずかに小さすぎるモデルが得られることがありますが、実際の予測子が欠落していることが多いため、MSEの観点では、常にいくつかの誤った予測子を含む人よりも悪い結果になります。

したがって、前述のように、正しい変数を取得することよりも良い予測を行うことに関心がある場合は、LOOCVまたはAICを使用し続けることは問題ありません。

2)しかし、私は彼の他の2つの論文、Yang(2006)「分類のための学習方法の比較」およびYang(2007)「回帰手順の比較のための相互検証の一貫性」も指摘したかった。これらの論文は、線形モデルより遅い速度で収束するモデルを比較する場合、トレーニングデータとテストデータの比率を0に縮小する必要がないことを示しています。

したがって、元の質問1〜6をより直接的に答えるには、線形モデルを相互に比較するときにShaoの結果が適用されます。回帰であれ分類であれ、より遅い速度で収束するノンパラメトリックモデルを比較する場合(または1つの線形モデルを1つのノンパラメトリックモデルと比較する場合)、トレーニングにほとんどのデータを使用し、モデル選択整合性のあるCVを使用できます。 ..それでも、ヤンはLOOCVが極端すぎると示唆しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.