2
仮説がネストされていない限り、相互検証は役に立ちませんか?
係数値をランダムに割り当て、エラーメトリックを使用してデータセット全体でこれらのモデルを評価し、このエラーメトリックに基づいて最適なモデルを選択するだけで、回帰設定で多くのランダムモデルを(データをまったく考慮せずに)生成した場合でも、実行できますか?過剰適合に? 最終的には、OLSソリューションになります(コメントを参照)。この場合、相互検証はこの手順とどのように異なりますか?たとえば、RidgeまたはLassoの回帰設定では、モデル(インデックス付けされた)の束を生成し、目に見えないデータセグメントでそれらを評価し、最適なモデルを選択しています。λλ\lambda CVはRidgeやLassoのような標準の正則化手法でうまく機能しているように思えます。これは、試行されたモデルがいくらかネストされているためです(つまり、RidgeはRademacherの複雑さによって順序付けられます)。したがって、構造的リスク最小化の原則が適用されます。それ以外の場合、CVは行き止まりのように見えます。相互検証を使用して多数の無関係なモデルを比較すると、上記のランダムモデル生成のシナリオになります。 たとえばSVMのような構造的リスク最小化フレームワークでは、エラーを制限してモデルの複雑さを軽減します。では、CVを正則化手法と組み合わせて適用すると、実際にはどのように同じ効果が得られるのでしょうか。比較されたモデルがネストされていない場合はどうすればよいですか?