変数係数は上昇し、ラムダが減少するにつれて減少します(LASSO)


8

LASSO(glmnet)を使用して、60以上の変数(連続およびカテゴリーの両方)で連続予測子を回帰しています。

変数トレースプロットを調べると、対数ラムダが増加すると、主要な変数の1つに実際に増加する係数があることがわかります。その後、ある時点を過ぎると、予想したように減少し始めます。

これがまぐれでないことを確認するために、私はブートストラップを使用して10モデルを実行し、非常に類似した結果を得ました。

これは可能ですか、それともデータに問題がありますか?正当な場合、変数の係数のこの傾向は、変数と応答との関係について何を教えてくれますか?

初期変数トレースプロット 10のブートストラップモデル

回答:


10

それは可能であるだけでなく、非常に一般的な出来事です。

ペナルティはことに注意してください。したがって、一部のコンポーネントは、全体のノルムを増加させることなく、他のコンポーネントが減少する限り、大きさが増加する可能性があります。時にはとして増加し、1つ(または少数)の係数(s)は、それ以上フィット用語の欠如に増加率を抑えることができますので、一緒に急速として少なくとも減少他人を犠牲にしてサイズが大きくなることがありそれらをすべて一緒に削減します。 λ λ||β||1λ

何が起こるかをプロットしたいかもしれません 増加。対数λi|βi|logλ

予測子の間に何らかの相関関係がある場合、この種の動作がよく見られます-一種の置換効果がある可能性があります。

|β4|+|β11|


このダイナミックは、ラムダの増加に伴って変数が単に減少する場合と比較して、変数が応答に及ぼす影響について何と言っていますか?
matsuo_basho

β4β11β4λx4

+1、しかし、そのようなことがどのようにそしてなぜ起こるかを示す建設的な例を得ることは可能でしょうか?
Richard Hardy

なぜ私が質問をしているのかについて、いくつか背景を説明させてください。モデルで最も重要な変数を特定したいと思います。私が実行したモデルから、ラムダが高い場合、変数4と変数11または24のいずれかが一貫してモデルにあることがわかります。したがって、これらは重要であると言えます。変数4は一般に正の係数を持っていますが、変数4の変更方法は少し混乱します。このダイナミックは、応答に対する変数の影響を解釈することについて何か教えてくれますか?
matsuo_basho
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.