回答:
簡単な答え:これらの状況のいずれかに直面しているときはいつでも:
リッジ回帰は一般に、バイアスと分散の間のより良い妥協を通して、OLSソリューションよりもより良い予測をもたらします。その主な欠点は、すべての予測変数がモデルに保持されることです。そのため、節約的なモデルを探したり、何らかの種類の特徴選択を適用したりすることはあまり面白くありません。
スパース性を達成するには、投げ縄がより適切ですが、高い共線性の存在下で必ずしも良い結果が得られるとは限りません(予測子が高度に相関している場合、投げ縄の予測パフォーマンスはリッジ回帰によって支配されることが観察されています)。L1ペナルティの2番目の問題は、変数の数が被験者の数よりも大きい場合、投げ縄解が一意に決定されないことです(これはリッジ回帰の場合ではありません)。投げ縄の最後の欠点は、ペアワイズ相関が高い予測変数のグループから1つの変数のみを選択する傾向があることです。この場合、グループ(つまり、共変量のブロックで収縮を達成する、つまり回帰係数の一部のブロックが正確にゼロになる)や融合のような代替ソリューションがあります。なげなわ。グラフィカルな投げ縄はまた、(Rの参照GGMsのための有望な機能を提供していますglassoのパッケージを)。
ただし、L1とL2のペナルティの組み合わせであるelasticnet基準は、収縮と自動変数選択の両方を実現し、場合に変数を維持することを可能にします。Zou and Hastie(2005)に続いて、最小化する引数として定義されています(超える)
ここで、および。
投げ縄は、Friedman and coll。による最近の論文、Coordinate Descentによる一般化線形モデルの正則化パス(JSS、2010)またはLARSアルゴリズムで説明されている座標降下に基づくアルゴリズムで計算できます。Rにおいて、献上、ラース又はbiglars、及びglmnetのパッケージは、パッケージに有用です。Pythonにはscikit.learnツールキットがあり、3種類すべての正規化スキームを適用するために使用されるアルゴリズムに関する詳細なドキュメントがあります。
一般的な参照については、投げ縄のページには、投げ縄回帰とL1ペナルティに関する技術的な詳細を開始するために必要なもののほとんどが含まれています。
リッジ回帰の使用の理論的な正当化は、その解が係数の正規事前分布を与えられた事後平均であるということです。つまり、二乗誤差を気にし、通常の事前分布を信じている場合、リッジ推定値が最適です。
同様に、投げ縄推定は、係数の事前の二重指数関数の下での事後モードです。これは、ゼロ1損失関数の下で最適です。
実際には、これらの手法は通常、相関変数が多く、データが多くない状況での予測精度を向上させます。OLS推定器は最適な線形不偏ですが、これらの状況では高い分散を持ちます。バイアスと分散のトレードオフを見ると、バイアスのわずかな増加が分散の大きな減少によって相殺される以上に予測精度が向上します。