仮説がネストされていない限り、相互検証は役に立ちませんか?


7

係数値をランダムに割り当て、エラーメトリックを使用してデータセット全体でこれらのモデルを評価し、このエラーメトリックに基づいて最適なモデルを選択するだけで、回帰設定で多くのランダムモデルを(データをまったく考慮せずに)生成した場合でも、実行できますか?過剰適合に?

最終的には、OLSソリューションになります(コメントを参照)。この場合、相互検証はこの手順とどのように異なりますか?たとえば、RidgeまたはLassoの回帰設定では、モデル(インデックス付けされた)の束を生成し、目に見えないデータセグメントでそれらを評価し、最適なモデルを選択しています。λ

CVはRidgeやLassoのような標準の正則化手法でうまく機能しているように思えます。これは、試行されたモデルがいくらかネストされているためです(つまり、RidgeはRademacherの複雑さによって順序付けられます)。したがって、構造的リスク最小化の原則が適用されます。それ以外の場合、CVは行き止まりのように見えます。相互検証を使用して多数の無関係なモデルを比較すると、上記のランダムモデル生成のシナリオになります。

たとえばSVMのような構造的リスク最小化フレームワークでは、エラーを制限してモデルの複雑さを軽減します。では、CVを正則化手法と組み合わせて適用すると、実際にはどのように同じ効果が得られるのでしょうか。比較されたモデルがネストされていない場合はどうすればよいですか?


4
ランダムモデルを生成し、エラーが最も少ないモデルを選択することは、(これを十分に長く行うと)漸近的にOLS回帰と同等です。
アメーバ2018年

@CagdasOzgenc:これは、シェイクスピア/聖書/選択したテキストを入力するサルのようなものです。多くのランダムモデルを作成すると、最終的に最小二乗解がその中に含まれます。最終的にはkCVテストケースの最小二乗解の倍。そして、それが選択されます(パフォーマンス基準として二乗誤差を使用する場合)。
cbeleitesはSXに不満2018

ランダムな特徴の学習も重要です(論争の的になっているExtreme Learning Machineの派生元であるRandom Vector Functional-Linkネットワークを参照してください)。
Firebug

1
この質問の前提は非常に混乱しています。CVは効果がない場合がありますが、(1)失敗モードがネストされたものとネストされていないものの仮説、またはRademacherの複雑度とどのように関係しているか、または(2)ネストされていないモデルとの比較がどのように関係しているかはわかりません。ランダムに生成されたモデルを比較します。
ポール

@Paul CVの背後にある暗黙の仮定は、比較される仮説の数が少ないということです。比較するモデルがたくさんある場合は、オーバーフィットします。通常、リッジ設定では、ラムダ設定がたくさんあるため、かなり多くの仮説があります。ただし、このシナリオで機能する理由は、仮説がネストされているためです。
Cagdas Ozgenc

回答:


6

私の論理は答えはイエスだと私に告げています。

そして、@ amoebaが指摘したように、あなたの論理は正しいです。

相互検証はこの手順とどう違うのですか?CV自体は、あなたの過剰適合とは何の関係もありません。CVは、モデルをテストするために独立したケースを保持する方法の単なるスキームです。

CVの結果に基づいてモデルを選択する場合、このモデル選択手順(CVを含む)は実際にはトレーニングの一部であることに注意してください

その最終モデルの独立した検証(検証)を行う必要があります(この場合、トレーニングとは独立したケースを保持するための戦略として別の CVを再び使用できます-ネストされた相互検証を参照)。汎化パフォーマンス。

繰り返しますが、問題はCVではなく、問題はデータ駆動型モデルの最適化(選択)です。

この観点から見ると、ランダムなモデルの生成は、理論的には、私の評価が目に見えないより大きなデータセグメントに対するものであるため、ペナルティ付きの回帰よりも適切ではないはずです。

これは理解できません:見えないデータサイズが異なるのはなぜですか?

複数のテストの問題を何らかの形で軽減するCV手順に何かありますか?

番号。

単一の分割と比較して複数のテストでわずかに役立つCVの唯一の特性は、CVが最終的にすべての使用可能なケースをテストすることです。したがって、テストされるケースの数が限られているため、分散の不確実性は多少小さくなります。ただし、これは、検索スペースを制限する(つまり、比較の数を制限する)場合と比べてあまり役に立ちません。


利用可能なトレーニングデータが少ない場合は、交差検証のみでモデルを適合させるのが妥当です。検証のためだけに一部をフィッティングまたは保存するためにすべてのデータを使用することの間のトレードオフは、多くの状況でそれほど明確ではないと思います
Nat

@Nat:利用可能なトレーニングデータが少ない場合は、可能な限り専門家の専門知識を使用し、相互検証(または内部単一分割)によるデータ駆動型チューニングを回避することをお勧めします:いくつかのケースはCV推定値を意味しますとにかく最適化を妨げます。CVは単一の分割より優れていますが、奇跡を起こすことはできません。
cbeleitesはSXに不満2018

非データ駆動モデル選択はどのように見えますか?それは非データ駆動型の意思決定のようなものですか?MSEを最小化すると、そのデータ駆動型ですか?MSPEを最小化するとどうなりますか?
2018年

1
@Nat:データ駆動型ではないモデルの選択の例:前処理の決定、および場合によっては、手元のアプリケーションに関する知識によってモデルの複雑さも決定します。たとえば、データと取得する情報、その他の情報または交絡要因を生成するプロセス関与。エラーの最小化はデータ駆動型です。利用可能なデータ内で観察するいくつかのエラーを最小化します。これはモデルパラメーターの近似に必要ですが、私の経験では、いわゆるハイパーパラメーターの数を制限したり、ハイパーパラメーター検索スペースを制限したりすることが可能であることがよくあります。(私は通常100ケース未満です)
cbeleitesはSXに不満があります

3

編集:交差検証に基づいてモデルを調整または選択することは、本質的に予測誤差(たとえば、平均二乗予測誤差)を最小限に抑えることを目的としています。入力データのサブセットを条件とするモデルを選択し、左の位置で出力を予測します。直感的には、サンプルの場所以外でモデルを評価しているため、これは予測です。質問は、候補モデルのセットが入力データから独立している場合(つまり、ランダムにモデルを生成するときにデータを使用しない場合)に何が起こるかです。

この仮定は、他のモデルフィッティング手順とそれほど変わりません。たとえば、パラメーター化されたモデルで開始し、パラメーターが任意の実数である可能性がある場合、候補となるモデルの無限のセットもあります。どちらの場合も、いくつかのエラーメトリックを最小化して、可能なモデルのセットから最適なモデルを選択する必要があります。したがって、両方のモデルの選択は、いくつかのトレーニングデータ(おそらく、相互検証を使用している場合はすべてのトレーニングデータのサブセット)を条件としています。エラーメトリックを指定しないため、平均二乗誤差(MSE)であると仮定します。モデルパラメーターを選択し、トレーニングデータを条件とするMSEメトリックを想定したブラックボックス手順を使用してモデルを選択します。トレーニングデータを条件としたMSEメトリックを想定して、ランダムモデルのセットからモデルを選択します。

同じモデルを選びますか?候補モデルの異なるセットで開始したかどうかによって異なります。

データをオーバーフィットしますか?これは、最初に使用した候補モデルのセットとトレーニングデータによって異なります。

データが過剰に適合していることを知っていますか?相互検証を行うと、予測エラーをチェックできます。

元の応答:広い意味で、データにはある程度の信号があり、ノイズがあります。オーバーフィットするときは、本質的にノイズにフィットしています。

交差検証では、フィッティング時にデータの一部を除外し、除外されたポイントを予測するときにエラーを評価します。サンプル外誤差を測定するという点で、トレーニングデータとテストデータがあるのと同じです。モデルは、どの点が省略されているかに関係なく、一般化する必要があります。ノイズに適合させると、モデルは一般化しません。比較しているモデルのセットには、トレーニングデータから省略されたときにデータポイントを補間しようとするモデルが含まれていない可能性があります。モデルがこのように動作する場合(たとえば、フィットを改善するためのランダムな動作)、妥当な一般的なモデルフィッティング手順がない可能性が高く、交差検証は役に立ちません。

無限のモデルセットと無限の時間がある場合、理論的には他の手順で生成されたどのモデルよりも優れたモデルを生成できると思います。しかし、無限セットのどのモデルであるかをどのようにして知るのでしょうか?トレーニングデータを内挿するのがモデルである場合、はい、トレーニングデータにノイズがある場合はオーバーフィットします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.