最小二乗係数を破棄することによるスパース性

14

正規化されたに対してを回帰したいとしますが、スパースソリューションが必要です。回帰後、最小の大きさの係数を破棄できないのはなぜですか？ $Y$ $X$

記録のために、私はLARSおよびLASSOメソッドを聞いたことがあり、よく使用します。上記のアプローチが適用できない理由を知りたいだけです。

regression regression-coefficients

— Cam.Davidson.Pilon
ソース

2

+1これらの簡単な質問は難しい場合があります。基本的な概念を考えるようになります。

— whuber

14

が正規直交であれば問題はありません。ただし、説明変数間に強い相関がある可能性があるため、一時停止する必要があります。 $X$

最小二乗回帰の幾何学的解釈を検討するとき、反例は簡単に手に入ります。を例にとると、ほぼ正規分布の係数を持ち、はそれにほぼ平行になります。ましょによって生成された平面に直交する及び。主に方向にあるが、平面の原点から比較的小さい量だけ変位しているを想定できます。そのためと $X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ はほぼ平行で、その平面内のコンポーネントは両方とも大きな係数を持っている可能性があり、を落とす原因になります。これは大きな間違いです。 $X_2$ $X_3$

ジオメトリは、次のR計算によって実行されるようなシミュレーションで再作成できます。

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

$X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ $0.38$

散布図行列はすべてを明らかにします。

x1、x2、x3、およびyの散布図行列

$x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

— ウーバー
ソース

2

推定係数が0に近く、データが正規化されている場合、変数を破棄しても予測は害にならないように思えます。確かに、係数が統計的に有意でなければ、問題はないと思われます。ただし、これは慎重に行う必要があります。IVは相関している可能性があり、IVを削除すると他の係数が変更される可能性があります。この方法でいくつかの変数を削除し始めると、これはより危険になります。サブセット選択手順は、このような問題を回避し、変数を含めたり除外したりするための適切な基準を使用するように設計されています。フランク・ハレルに尋ねると、彼は段階的な手順に反対します。2つの非常に現代的な方法であるLARSとLASSOに言及しています。しかし、変数の導入が多すぎることを意味する情報基準を含め、他にもたくさんあります。

多くの文献で入念に研究されたサブセット選択手順を試してみると、特に統計的に有意に0と異なるためにテストに失敗した場合、小さな係数を持つ変数を削除するソリューションにつながることがわかります。

— マイケル・R・チャーニック
ソース