LASSOは共線予測子の中からどのように選択するのですか？

GLM LASSOモデルが相関性の高い予測子のグループから特定の予測子を選択する理由と、最良のサブセット機能選択とは異なる方法で予測する理由を直感的に探しています。

Tibshirani 1996の図2に示されているLASSOの形状から、LASSO がより大きな分散を持つ予測子を選択すると信じています。

ここで、ロジスティック回帰モデルの2つの予測子を取得するために10倍のCVで最良のサブセット選択を使用し、これらの2つの予測子が最適（0-1損失の意味）であるという合理的な事前知識があるとします。

LASSOソリューションは、予測誤差が大きい、あまり簡潔ではない（5つの予測子）ソリューションを優先します。直感的に、違いが生じる原因は何ですか？LASSOが相関予測子の中から選択する方法が原因ですか？

feature-selection lasso

LASSOは、ペナルティとパス依存性の点で最良サブセット選択とは異なります。

最良のサブセットの選択では、おそらくCVを使用して、2つの予測子が最高のパフォーマンスを提供したことを特定しました。CV中に、ペナルティなしの完全な大きさの回帰係数を使用して、含める変数の数を評価していました。2つの予測子を使用する決定が下されたら、2つの予測子のすべての組み合わせを完全なデータセットで並行して比較し、最終モデルの2を見つけます。これら2つの最終的な予測子には、まるでそれらが唯一の選択肢であるかのように、ペナルティを課すことなく、完全な大きさの回帰係数が与えられます。

LASSOは、回帰係数の大きさの合計に対する大きなペナルティから始まり、ペナルティが徐々に緩和されていると考えることができます。その結果、変数は一度に1つずつ入力され、リラクゼーション中の各ポイントで、モデルに既に存在する変数の係数を増やすか、別の変数を追加するかが決定されます。しかし、たとえば、2変数モデルの場合、LASSOによって許可される回帰係数は、同じ変数が2変数モデルと3変数モデルを比較するために使用される標準の非ペナルティ回帰の場合よりも大きさが低くなります。最良のサブセットの選択。

これにより、新しい変数をLASSOに入力する際に、最良のサブセットを選択するよりも簡単になります。発見的に、LASSOは、含まれるべき変数の数の不確実性に対して、潜在的に実際よりも低い回帰係数をトレードオフします。LASSOモデルにはより多くの変数が含まれる傾向があり、2つの変数のみを含める必要があることが確実にわかっている場合、LASSOのパフォーマンスが低下する可能性があります。ただし、正しいモデルにいくつの予測変数を含める必要があるかをすでに知っている場合は、おそらくLASSOを使用しないでしょう。

これまでのところ、共線性に依存しているものはありません。共線性は、最適サブセットとLASSOでの変数選択におけるさまざまなタイプの任意性をもたらします。この例では、best-subsetは2つの予測子のすべての可能な組み合わせを調べ、それらの組み合わせの中から最適なものを選択しました。したがって、その特定のデータサンプルのベスト2が勝ちます。

LASSOは、一度に1つの変数を追加するときにパスに依存するため、1つの変数を早期に選択すると、それに関連する他の変数が緩和プロセスの後半に入るときに影響する可能性があります。変数が早期に入力され、他の相関変数が入力されるとそのLASSO係数が低下する可能性もあります。

実際には、どちらの方法でも、最終モデルの相関予測子の選択はサンプルに大きく依存します。これは、同じデータのブートストラップサンプルでこれらのモデル構築プロセスを繰り返すことで確認できます。予測子が多すぎず、新しいデータセットの予測に主な関心がある場合は、すべての予測子を保持する傾向があるリッジ回帰がより良い選択である可能性があります。

— EdM
ソース