リッジ回帰がLASSOよりも優れた解釈可能性を提供できないのはなぜですか?


12

リッジ回帰とLASSOの長所と短所についてはすでに考えています。

pnnnp

リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。

上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。

  1. 特徴の範囲を正規化して(たとえば、0と1の間、または平均と単位の分散がゼロの場合)、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます(最も重要な特徴には係数の最高絶対値)。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか?

  2. LASSOは、その機能選択の性質上、推奨されますか?私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。

    計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果(スパースベクトル)を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット(たとえば、100万のうち500)をフィードするだけなので、予測を少し速くすることができます。

    LASSOが一般化する機能に適している場合は、リッジ回帰(または他の種類の正則化)を使用して同じ目標を達成することもできます。なぜ再びLASSO(またはエラスティックネット)が必要なのですか?なぜリッジ回帰だけに固執できないのですか?

誰かがこれにいくつかの光を当ててもらえますか?ありがとう!


3
L1L2

3
どの教科書がリッジ回帰のようなものを言っているのかも不思議です(一般にLASSOとは対照的に、制限のない回帰とは対照的に理解しています)。多分一般的なそれらの使用では一般的ではありません。また、正則化メソッドはどの程度の解釈可能性をもたらすと想定されていますか?(また、Shmueli "To Explain or To Predict"(2010)は、直接の関連はありませんが、素晴らしい作品です。)
Richard Hardy

1
@RichardHardy、あなたは正しい。今、私は教科書をさらに注意深く読み、223ページRidge回帰もLassoも普遍的に他を支配することはない、Rのアプリケーションによる統計学習の紹介、Gareth James他
Brad Li

:@RichardHardy、もともと私はLIBLINEARよくある質問のL1-正則のための同様の議論見つけcsie.ntu.edu.tw/~cjlin/liblinear/...
ブラッドリー

尾根となげなわで実際の例を1つまたは2つ実行すると、違いが明らかになりますか?(しかし、それらを比較するのは簡単ではありません-プロットフィット対スパース性をプロットしますか?)
denis

回答:


16
  1. あなたが見てみましょう:あなたは100万リッジ縮小、拡大縮小が、非ゼロの機能をご注文いただいた場合、あなたは、意思決定のいくつかの種類を確認する必要がありますnは最良の予測因子が、何であるのn?LASSOは、この問題を原理的かつ客観的な方法で解決します。これは、パス上のすべてのステップで(多くの場合、交差検証などによって1つの点で解決します)、ゼロでない係数がm個しかないためです。

  2. 多くの場合、一部のデータでモデルをトレーニングし、後でまだ収集されていない一部のデータに適用します。たとえば、モデルを50.000.000のメールに適合させ、新しいメールごとにそのモデルを使用できます。確かに、最初の50.000.000通のメールのすべての機能セットにそれを適合させますが、後続のすべてのメールでは、よりまばらで高速で、はるかにメモリ効率の高いモデルを扱います。また、ドロップされた機能の情報を収集する必要もありません。これは、たとえばジェノタイピングなどにより機能の抽出にコストがかかる場合に非常に役立ちます。

Andrew Gelmanなどによって明らかになったL1 / L2の問題に関する別の見方は、問題がどのようなものであるかを直感することが多いということです。状況によっては、現実がまばらである可能性があります。何百万もの遺伝子を測定したかもしれませんが、実際にドーパミン代謝を決定しているのは30.000遺伝子だけであると考えられます。そのような状況では、L1は間違いなく問題によりよく適合します。
他の場合では、現実は密であるかもしれません。たとえば、心理学では、「すべてが(ある程度)すべてと相関している」(Paul Meehl)。オレンジ対りんごのための環境設定は、おそらくないとさえIQを持つ-何とか政治的性向と相関を。ここでも正則化は理にかなっているかもしれませんが、真のゼロ効果はまれであるはずなので、L2がより適切かもしれません。


y=2x1+3x2x3
x2>x1>x3[0,1]
ブラッド・リー

もちろん、それらを並べ替えることはできますが、それらのどのサブセットを表示するかについて、何らかの決定を行う必要があります。
ジョナ2015年

6
これを表現する別の方法は次のとおりです。尾根は機能の選択に役立ちます。LASSO 機能の選択を行います。
ジョナ2015年

1
@Bradは、ジョナ(+1)による優れた回答に加えて、特徴の重要性をその標準化された回帰係数によって判断することは1つの可能なアプローチであるが、唯一のアプローチではないことに注意してください。「機能の重要性」にはさまざまな尺度があり、それらは簡単に矛盾する結果をもたらす可能性があります。長い議論については、このスレッドを参照してください:stats.stackexchange.com/questions/64010
アメーバは、2015

1

ターゲットが多くの機能に依存している場合、解釈可能性が低下します。機能の数を減らして精度を維持できれば、それは増加します。リッジの正規化には、機能の数を減らす機能はありません。しかし、なげなわには能力があります。これがどのように発生するかは、次のリンクで視覚的に説明されています。

データサイエンスに向けての記事をクリック

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.