交差検証手順がモデルの過剰適合の問題を克服するのはなぜですか?
交差検証手順がモデルの過剰適合の問題を克服するのはなぜですか?
回答:
私は他の誰かにそれを残しておきますので、私は、ただ、現時点では十分に明確な説明を考えることはできません。しかし、相互検証が完全にモデル選択にオーバーフィッティングの問題を克服していない、それはちょうどそれを軽減します。交差検定誤差は、データセットのサイズが小さい場合は特に、無視できる程度の分散を持っていません。つまり、使用するデータの特定のサンプルに応じて、わずかに異なる値を取得します。これは、モデル選択に多くの自由度がある場合(たとえば、小さなサブセットを選択する多くの機能、調整する多くのハイパーパラメーター、選択する多くのモデル)、交差検証基準をオーバーフィットできることを意味します。モデルは、むしろ本当にパフォーマンスを向上させるかの方法に比べて、このランダムな変動を利用する方法でチューニングされているように、そして、パフォーマンスの低いモデルになる可能性があります。この議論については、Cawley and Talbot「パフォーマンス評価におけるモデル選択とその後の選択バイアスの過剰適合について」、JMLR、vol。11頁。2079年から2107年、2010年
悲しいことに、クロス検証は、小さなデータセットがあるときに失望させる可能性が最も高く、これはまさにクロス検証が最も必要な場合です。k分割交差検証は、分散が小さいため、一般的には1分割交差検証よりも信頼性が高いですが、一部のモデルでは計算にコストがかかる場合があることに注意してください(LOOCVがモデルの選択に使用される場合があるため、それは)高い分散を有していても。
私の答えは厳密ではなく直感的ですが、おそらく役立つでしょう...
私が理解しているように、オーバーフィッティングは、同じデータを使用したトレーニングとテストに基づくモデル選択の結果であり、柔軟なフィッティングメカニズムがあります。データのサンプルを非常に厳密にフィッティングし、ノイズ、外れ値、およびすべてをフィッティングします。他の分散。
データをトレーニングとテストのセットに分割すると、これを行うことができなくなります。ただし、静的分割ではデータを効率的に使用していないため、分割自体が問題になる可能性があります。相互検証により、トレーニングデータとテストデータを正確に一致させないという利点を維持しながら、保有するデータを可能な限り効率的に使用します(つまり、すべてのデータが使用されます)トレーニングとテストデータとして、同じ実行ではありません)。
柔軟なフィッティングメカニズムがある場合は、モデルの選択を制約して、何らかの形で「完全」ではなく複雑なフィッティングが優先されるようにする必要があります。AIC、BIC、または適合の複雑さを直接ペナルティ化する他のペナルティ化方法を使用して、またはCVでそれを行うことができます。(または、あまり柔軟ではないフィッティング方法を使用してそれを行うことができます。これが、線形モデルが優れている理由の1つです。)
別の見方をすれば、学習は一般化に関するものであり、きつすぎるフィット感はある意味で一般化しないことです。学習内容とテスト対象を変更することで、特定の質問に対する回答のみを学習した場合よりも一般化できます。
ベイジアンの観点からは、クロス検証が「適切な」ベイジアン分析ではモデルを比較するのとは異なることを行うかどうかはわかりません。しかし、私はそれが100%確実ではありません。
Which is called the prior predictive distribution. It basically says how well the model predicted the data that was actually observed, which is exactly what cross validation does, with the "prior" being replaced by the "training" model fitted, and the "data" being replace by the "testing" data. So if model B predicted the data better than model A, its posterior probability increases relative to model A. It seems from this that Bayes theorem will actually do cross validation using all the data, rather than a subset. However, I am not fully convinced of this - seems like we get something for nothing.
Another neat feature of this method is that it has an in built "occam's razor", given by the ratio of normalisation constants of the prior distributions for each model.
However cross validation seems valuable for the dreaded old "something else" or what is sometimes called "model mispecification". I am constantly torn by whether this "something else" matters or not, for it seems like it should matter - but it leaves you paralyzed with no solution at all when it apparently matters. Just something to give you a headache, but nothing you can do about it - except for thinking of what that "something else" might be, and trying it out in your model (so that it is no longer part of "something else").
And further, cross validation is a way to actually do a Bayesian analysis when the integrals above are ridiculously hard. And cross validation "makes sense" to just about anyone - it is "mechanical" rather than "mathematical". So it is easy to understand what is going on. And it also seems to get your head to focus on the important part of models - making good predictions.