尾根となげなわの両方が別々にうまく機能するが、異なる係数を生成する場合の結果の解釈方法


11

LassoとRidgeの両方で回帰モデルを実行しています(0〜5の範囲の離散結果変数を予測するため)。モデルを実行する前に、のSelectKBestメソッドを使用scikit-learnして、機能セットを250から25に減らします。初期の特徴選択を行わないと、ラッソとリッジの両方で精度スコアが低くなります(サンプルサイズが600と小さいためである可能性があります)。また、一部の機能は相互に関連していることに注意してください。

モデルを実行した後、LassoとRidgeの予測精度はほぼ同じであることがわかります。ただし、係数の絶対値で並べ替えた後、最初の10個のフィーチャをチェックすると、最大で%50のオーバーラップがあることがわかります。

つまり、機能の重要性が各方法で割り当てられていることを考えると、選択したモデルに基づいてまったく異なる解釈をする可能性があります。

通常、機能はWebサイトでのユーザーの行動のいくつかの側面を表します。そのため、予測能力が高い機能(ユーザーの行動)と弱い機能(ユーザーの行動)を強調して、調査結果を説明したいと思います。しかし、今のところどうすればいいのかわかりません。モデルの解釈にはどのようにアプローチすればよいですか?たとえば、両方を組み合わせて重複するものを強調表示する必要がありますか、それとも解釈性が向上するので、投げ縄を使用する必要がありますか?


3
(+1)正則化は、個々の係数推定を悪化させる一方で、新しい応答を予測する際のそれらの集合的なパフォーマンスを向上させると見なすことができます。あなたの解釈で正確に何を達成しようとしていますか?
Scortchi-モニカの回復

1
@Scortchi返信いただきありがとうございます。私はこれを追加しましたNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre 2017年

3
+1 AFAIKリッジ係数とラムダの間の関係は、ラッソでは単調である必要はありません。したがって、特定の収縮レベルでは、尾根となげなわの係数の絶対値が大きく異なる場合があります。誰かがこの証明をスケッチまたはまもなく数学的にそれを説明することができれば、私は感謝、と述べた
ルカシュグラード

「ベータ」係数をソートしていることを確認してください。stats.stackexchange.com/a/243439/70282を参照してください。リンクで説明されているように、標準化された変数でトレーニングするか、後で調整することで取得できます。
Chris

1
@ŁukaszGradLASSO係数は、予測子が相関している場合、単調関数である必要はありません。例については、ISLRの図6.6を参照してください。λ
EdM 2017年

回答:


7

リッジ回帰は、すべての係数が小さくなるように促します。なげなわは、多く/ほとんど[**]の係数がゼロになることを奨励し、いくつかは非ゼロになります。どちらもトレーニングセットの精度を低下させますが、何らかの方法で予測を改善します。

  • リッジ回帰は、過剰適合を減らすことにより、テストセットの一般化を改善しようとします。
  • lassoは、ゼロ以外の係数の数を減らします。これにより、トレーニングセットとテストセットの両方でパフォーマンスが低下する場合でも

データの相関性が高い場合は、さまざまな係数の選択肢を得ることができます。したがって、相関する5つの機能があるとします。

  • これらの機能すべてに小さいが非ゼロの係数を割り当てることにより、リッジ回帰はトレーニングセットで低損失を達成でき、テストセットに妥当な形で一般化することができます。
  • なげなわは、これらのうち1つだけを選択する可能性があり、他の4つとよく相関します。リッジ回帰バージョンで係数が​​最も高いフィーチャを選択する必要がある理由はありません

[*]「選択」の意味の定義:リッジ回帰係数はすべて非ゼロになる傾向があるため、ゼロ以外の係数を割り当てます。 、そして他は例えば0.01かもしれません

[**]ニュアンス:Richard Hardyが指摘するように、いくつかのユースケースでは、値を選択できます。これにより、すべてのLASSO係数が非ゼロになりますが、多少の縮小が生じます。λ


良い提案。相関行列を作成することをお勧めします。重複しない変数は高度に相関している可能性があります。
Chris

3
いい答えです!ただし、Rassoについて同じことを言っていないのに、ridgeがテストのパフォーマンスを向上させることを普遍的に試みることを提案するのが公正かどうかはわかりません。たとえば、真のモデルがスパースである場合(および予測子のサブセット内)、ラッソはリッジよりも優れたテストパフォーマンスをすぐに期待できます
user795305

これが「希薄性への賭け」の原則です。たとえば、ここの最初のプロットを参照してください:faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
データの複数のブートストラップサンプル間の変数の選択(LASSO)と回帰係数の比較は、これらの問題をうまく説明できます。相関する予測子を使用すると、異なるブートストラップからLASSOによって選択された予測子はまったく同じでありながら、同様の予測パフォーマンスを提供できます。理想的には、初期の機能セット削減を含むモデル構築プロセス全体を複数のブートストラップで繰り返して、プロセスの品質を文書化する必要があります。
EdM 2017年

これらの機能のうち4つを低係数、またはすべての係数を使用して選択すると、係数は小さくてもゼロではないため、リッジ回帰はトレーニングセットの損失を少なくできます-リッジ回帰では変数を選択しません。また、値が小さい場合、lassoはすべての変数を選択ますが、尾根のように多少の収縮を行います。λ
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.