予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか？

統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します（図6.9）。

なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません（例でMSEが大幅に低下するのはどうですか？）。

リッジでは、多くの予測子が応答にほとんど影響を与えない場合（少数の予測子が大きな効果を持つ場合）、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ？それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか？

— オリバー・アンジェリル
ソース

stats.stackexchange.com/questions/866/...

— Laksanネイサン

私はそのリンクを見ました。質問には答えません。

— オリバーアンジェリル

回答:

あなたはこの質問をする権利があります。一般に、適切な精度スコアリングルールが使用されると（平均予測誤差など）、リッジ回帰は投げ縄よりも優れています。ラッソは、「正しい」予測子を見つけるために情報の一部を費やしますが、多くの場合、それを行うことはあまりよくありません。2つの相対的なパフォーマンスは、真の回帰係数の分布に依存します。真の非ゼロ係数のごく一部がある場合、投げ縄のパフォーマンスが向上します。個人的には、予測精度に関心がある場合、ほとんど常にridgeを使用します。

— フランク・ハレル
ソース

予測精度に興味がない場合はありますか？

— セイウチ猫

@WalrustheCatスタンフォード出身のステレオタイプの一部の人々は、高次元変数選択でのLassoの使用を提唱しています。おそらく、フランクは単に「...予測精度に関心がある」というよりも「...予測精度に主に関心がある」ことを意味していたと思われますが、私の意見では、これら2つの違いは有用であるために2つです。

— ジョンマッデン

「次元削減としての正規化」アプローチを理解したことはありません。投げ縄正則化または非正則化のいずれかを介して次元削減を実行し、結果のフィーチャの元の問題に最適な正則化関数を使用できます。しかし、私は脱線します。

— セイウチ猫

「一般的に[...]リッジ回帰は投げ縄よりも優れています」と「真実に非ゼロ係数が少しあれば、投げ縄のパフォーマンスが向上する」から、ほとんどの予測問題ではグラウンドトゥルースがまばらではないことがわかります。これはあなたが言っていることですか？

— アメーバは、モニカを復活させる

はい、主に。「分布の」グラウンドトゥルースを知っている場合、未知の回帰係数のベイズ事前分布を作成し、最適な結果を得ることができます。また、たとえば、予測子の3/4がまったく影響がない場合でも、ridgeはなげなわと競合します。

— フランクハレル

参照する例の特定の設定は、なげなわがリッジより優れている理由を理解するための鍵であると考えています。

これは病理学的な場合の境界線です：ゼロへの還元を容易にすることを特に意図した投げ縄は、意図したとおりに機能しますが、リッジは多数の無用な用語を処理する必要があります（その効果がゼロに近く減少しても、ゼロ以外の効果）。

— mbrig
ソース