Lassoで特定された変数のサブセットでOLS推定よりもLasso推定を使用する理由


26

なげなわ回帰、最適なソリューション(最小テストエラーなど)でk個の特徴が選択され、その結果、帽子{\ベータ} \ \帽子{\ベータ} ^ {投げ縄} = \左(\ハット{\ベータ} _1 ^ {投げ縄} \帽子{\ベータ} _2 ^ {投げ縄}、... _k ^ {lasso}、0、... 0 \ right)

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

我々はそれを知っている(β^1lasso,β^2lasso,...,β^klasso)です\ left(\ beta_1、\ beta_2、...、\ beta_k \ right)の偏った推定値な(β1,β2,...,βk)ので、なぜ「合理的」ではなくβ^lassoを最終解として採用するのですか?β^new=(β^1:knew,0,...,0)、ここでβ^1:knewは、部分モデルLnew(β1:k)=(X1:kβy)(X1:kβy)。(X1:kは、選択されたk個のフィーチャに対応するXの列を示します)。Xk

手短に言えば、変数選択だけでなく、選択した特徴の推定をOLSに任せるのではなく、特徴選択とパラメーター推定の両方にLassoを使用するのはなぜですか?

(また、「Lassoは最大でn機能を選択できる」とはどういう意味ですか?nはサンプルサイズです。)


1
それはとてもいい質問です。いくつかのシミュレーションを試して、自分のやり方で試してみた場合の結果が標準のなげなわとどの程度異なるかを確認しましたか?
プラキディア

3
LASSOの「収縮」の目的を理解しましたか?
マイケルM 14年

6
あなたが最大のものを選んだので、アイデアは正確に係数推定値を縮小することです。事前に特徴選択を行った場合、最小二乗推定値は偏りがなくなります。
Scortchi-モニカの復職

2
「収縮法はどのような問題を解決しますか?」に対する優れた回答については、次の質問を参照してください。stats.stackexchange.com/questions/20295/...
DL Dahly

2
明確にするために:@Scortchiが間違っているとは言わないが、機能の選択を議論するとき、これは少し灰色の領域であり、これは非常に明確にすべき重要な技術的ポイントだと思う。
JohnA

回答:


27

変数選択にLASSOを使用してからOLSを使用することに問題はないと思います。「統計学習の要素」から(pg。91)

...投げ縄の収縮により、非ゼロ係数の推定値がゼロに偏り、一般に一貫性がなくなります[ 注を追加:これは、サンプルサイズが大きくなると、係数推定値が収束しないことを意味します]このバイアスを減らすための1つの方法は、投げ縄を実行して非ゼロ係数のセットを特定し、選択された特徴のセットに無制限の線形モデルを当てはめることです。選択したセットが大きい場合、これは常に実行可能ではありません。または、投げ縄を使用して非ゼロ予測子のセットを選択し、最初のステップで選択した予測子のみを使用して、投げ縄を再度適用できます。これはリラックスした投げ縄として知られています(Meinshausen、2007)。目的は、交差検証を使用して、投げ縄の初期ペナルティパラメーターを推定し、次に、選択された予測子のセットに適用される2番目のペナルティーパラメーターを推定することです。2番目のステップの変数はノイズ変数との「競合」が少ないため、交差検証では [ペナルティパラメーター]の値が小さくなる傾向があり、そのため、係数は最初の推定値よりも小さくなります。λ

リラックスした投げ縄に似た別の合理的なアプローチは、投げ縄を一度(または複数回)使用して、予測変数の候補のグループを識別することです。次に、最適なサブセット回帰を使用して、考慮する最適な予測変数を選択します(これについては、「統計学習の要素」も参照してください)。これが機能するには、予測候補のグループを約35まで絞り込む必要がありますが、これは常に実行可能とは限りません。交差検定またはAICを基準として使用して、過剰適合を防ぐことができます。


私の質問の別の部分は、「Lassoは最大でn個の機能を選択できる」ということです。これが当てはまる場合、OLSは「青」であるため、選択された機能のOLSは少なくとも「良好」になると思います(ほとんど偏っているため厳密には青ではありません)。Lassoが正確に正しい機能を選択するという極端な状況を考えてみましょう。これらの機能でOLSを実行すると、真のモデルが復元されます。これは、Lassoの推定よりも良いと思います。
イリューイーグル14年

2
問題は、この「極端な状況」が発生する可能性は非常に低く、LASSOが正確に適切な機能を選択したかどうかを知る方法がないことです。LASSOがあまりにも多くの機能を選択した場合、完全なOLSモデルはLASSOの推定よりもパフォーマンスが低下する可能性があります。同様に、特徴が多すぎる(つまり、OLSが過適合である)場合、リッジ回帰はOLSを上回る可能性があります。
アレックスウィリアムズ14年

2
web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdfも参照してください。セクション2.2の終わり:「[...]予測子のサブセットに適合する最小二乗法は、投げ縄推定値を拡大する傾向があります。投げ縄からの非ゼロ推定値はゼロに偏る傾向があるため、右側のパネルのバイアス除去により、モデルの予測誤差が改善されることがよくあります。この2段階プロセスは、緩和な投げ縄としても知られています(Meinshausen 2007) 」
アメーバは、

1
Meinshausenの論文を調べたところ、The Elementsからの元の引用で説明されているように、実際には2つのペナルティパラメーターの適合が推奨されています。+1
アメーバは、Reinstate Monicaのことを

@AlexWilliamsしかし、前の段落では、選択されたセットと削除されるものとの相関関係についてのスパース性の仮定は小さくありませんか?
Dimitriy V. Masterov

15

目的がサンプル内での最適なパフォーマンス(最高のR 2乗)である場合は、使用可能なすべての変数でOLSを使用します。変数をドロップすると、R-2乗が減少します。

目的が良好なサンプル外パフォーマンス(通常ははるかに重要なもの)である場合、提案された戦略は2つの過剰適合の原因に悩まされます。

  • 応答変数との相関に基づく変数の選択
  • OLSの見積もり

LASSOの目的は、パラメーターの推定値をゼロに縮小して、2つの過剰適合の原因を超えて戦うことです。サンプル内の予測は常にOLSよりも悪くなりますが、(ペナルティの強さに応じて)より現実的なサンプル外の動作を取得することが望まれます。

に関して:これは(おそらく)使用しているLASSOの実装に依存します。バリアントLars(最小角度回帰)は、に対して簡単に機能します。p>np>n


2
「Leekasso」(常に10個の係数を選択)は、質問の提案(LASSOが選択したk予測子でOLSを再推定)とは異なります
アフィン14年

@affineあなたは完全に正しいです。参照を削除しました。
マイケルM 14年

2
これは理にかなっているように思えますが、ラッソの発明者はそうはない主張し、ラッソによって識別されたサブセット(OPによって示唆された)でOLSを使用した2段階の手順を実際に使用することをお勧めします。@ Alexの回答を参照してください。
アメーバは、モニカを

検索自体からの選択バイアスに言及しているため、この回答が気に入っています。追加のペナルティがあるはずです。単なるサブセット選択メカニズムとしてのLASSO-それだけです?それでは、なぜその係数を印刷するのでしょうか?
ベンオゴレク

3

Lassoが最大でn個の機能を選択できる理由に関するOPの質問について:

OLSにバイアスがかかる理由を考えてみましょう。これは、観測(n)よりも多くの予測子(p)がある場合です。したがって、はのサイズ[p、p] です。このような行列の逆行列を取ることはできません(特異な場合もあります)。XTXβ=(XTX)1XTY

Lassoは、これが起こらないように変数の係数を縮小することを強制されます。したがって、が常に可逆になるように、n個を超える特徴が選択されることはありません。XTX


1
(-1)これは本当だとは思わない。存在しないとなげなわとの関係について詳しく説明してください。具体的には、$ X ^ TXはなげなわとどう関係しますか?OPSの質問の証拠があります(ここでの回答は、たとえばstats.stackexchange.com/questions/38299/…を明らかにしています)が、この答えはそれを証明していないようです。(間違えた場合はお知らせください!)(XTX)1
user795305
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.