L1の正則化はL2よりもうまく機能しますか?


30

注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。

  1. 使用する正則化(L1またはL2)の決定方法
  2. L1 / L2正則化のそれぞれの長所と短所は何ですか?
  3. 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

2
「L1機能選択」は、むしろ機能空間の正則化と呼ばれるべきであることに注意してください。モデル化された問題に関連する情報を取得することとして理解される、機能選択を行うための多くの方法があります。

@mbq:ここで「多くの方法でより良い方法」とはどういう意味ですか?
アメーバは、モニカーを復活させる

1
ここに列挙されたもののように。

回答:


31

使用する正則化(L1またはL2)の決定方法

あなたの目標は何ですか?結果と反対の関係にある特徴は互いに「相殺」できるため、係数にペナルティを課すことにより、モデルの一般化を改善できます(大きな正の値は大きな負の値で相殺されます)。これは、同一直線上の特徴がある場合に発生する可能性があります。データの小さな変更により、パラメーター推定値が大幅に異なる場合があります(高分散推定値)。ペナルティにより、両方の係数を小さく抑えることができます。(Hastie et al、Elements of Statistics Learning、第2版、p.63)

L1 / L2正則化のそれぞれの長所と短所は何ですか?

L1正則化は、係数ノルムを制約し、いくつかの係数値を0に固定することにより、多重共線性の問題に対処できます。観測値よりも多くの特徴がある場合、lassoは最大で非ゼロ係数を保持しますNN。コンテキストに応じて、それはあなたが望むものではないかもしれません。

L1正則化は、機能選択方法として使用される場合があります。使用できる機能の数に何らかのハードキャップがあると仮定します(すべての機能のデータ収集には費用がかかるため、または保存できる値の数に厳しいエンジニアリング上の制約があるためなど)。L1ペナルティを調整して、必要な数の非ゼロフィーチャをヒットすることができます。

L2正則化は、係数ノルムを制約し、すべての変数を保持することにより、多重共線性の問題に対処できます。係数を正確に0と推定することはほとんどありません。何らかの理由でスパース係数ベクトルが重要でない限り、これは必ずしも欠点ではありません。

回帰設定では、観測よりも多くの特徴を持つ回帰を推定する問題の「古典的な」解決策です。L2正則化は、観測より多くの特徴がある場合でも、各特徴の係数を推定できます(実際、これは「リッジ回帰」の元の動機でした)。

別の方法として、エラスティックネットはL1およびL2の正則化を特別なケースとして許可します。業界のデータサイエンティストの典型的な使用例は、最適なモデルを選択するだけですが、L1、L2、またはその両方を使用してペナルティを課すかどうかは必ずしも気にしません。エラスティックネットは、このような状況では便利です。

最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

私はL1-then-L2パイプラインを提案している出版物に精通していませんが、これはおそらく私の無知にすぎません。問題はないようです。文献レビューを行います。

同様の「段階的」パイプラインの例がいくつかあります。1つは「緩和されたなげなわ」です。これは、なげなわ回帰を2回適用します。1つは大きなグループから小さなグループの特徴を下向きに選択し、2つ目はモデルで使用する係数を推定します。これは、ペナルティの大きさを選択するために各ステップで相互検証を使用します。その理由は、最初のステップで相互検証を行い、関連のない予測変数を除外するために大きなペナルティを選択する可能性が高いからです。2番目のステップでは、相互検証を行い、ペナルティを小さくします(したがって、係数を大きくします)。これについては、ニコライ・マインズハウゼンの引用による「統計的学習の要素」で簡単に説明されています(「緩和された投げ縄」。計算統計およびデータ分析)。 Volume 52、Issue 1、2007年9月15日、pp 374-393)。

ユーザー@amoebaは、L1-then-OLSパイプラインも提案します。これは、L1ペナルティの大きさに対するハイパーパラメータが1つしかないため、いじる必要が少ないため、素晴らしいかもしれません。

一部のステップを実行してから他のステップを個別に実行する「フェーズ」分析パイプラインで発生する可能性のある問題の1つは、これらの異なるアルゴリズム間に「可視性」がないため、1つのプロセスが前のステップで発生したデータスヌーピングを継承することです。この影響は無視できません。モデリングの概念が不十分だと、ガベージモデルが作成される可能性があります。

データスヌーピングの副作用を回避する1つの方法は、すべての選択を相互検証することです。ただし、計算コストの増加は法外なものになる可能性があります。


申し訳ありませんが、私の3番目のポイントへの返信はありませんでした。説明できますか?
GeorgeOfTheRF

1
楽観主義を適切に説明することがすべてです。サンプル外データのパフォーマンスを測定するのと同じ理由で、すべてのフィルタリング/前処理ステップを、ステップ間の情報漏洩を許可しない方法で行う必要があります。データセット全体で機能を選択してから分析を実行すると、ノイズの中に信号が見つかります。
シコラックスは、Reinstate Monica

OK。それでは、MLモデルを実行する前に機能を選択するための推奨されるアプローチは何ですか?
GeorgeOfTheRF

3
私の推奨は「しない」です。stats.stackexchange.com/questions/164048/…これがいかにうまくいかないかの例についてはこちらをご覧ください。しかし、これはあなたが最初の質問とはまったく異なるので、単に新しい質問をするべきです。(これは、新しい質問について追加の担当者を獲得できるため、有利です。)
シコラックスは、Reinstate Monicaを言う

3
(+1)L1に続くL2が文献で議論されているのを見たことはありませんが、それは理にかなっています。L1に追従するLOS(別名「LARS-OLSハイブリッド」)とL1に追従するL1(ゆるい投げ縄)があるため、L1に追従するL2も考慮することができます。両方のハイパーパラメーターが相互検証される限り、実行可能な正則化戦略である必要があります。
アメーバは、モニカを

19

一般的に、最適な予測が必要な場合はL2を使用します。予測的差別をいくらか犠牲にして節約したい場合は、L1を使用します。しかし、節約は幻想的である可能性があることに注意してください。たとえば、ブートストラップを使用してなげなわプロセスを繰り返すと、特に予測子が相互に関連付けられている場合、「選択」された特徴のリストに大きな不安定性が現れることがよくあります。


「最適な予測」-L2は一般に、見えないデータの精度を向上させるということですか?
-GeorgeOfTheRF

3
はい、特に予測差別に関して。
フランクハレル

1
このコメント(および回答)に+1を付けます。私は、が通常 よりも予測差別(つまり分類タスク)の点で優れているというこの現象に、させられます。溶液。:)L2L1
usεr11852は回復モニック言う

2
予測差別は、分類よりもはるかに一般的な概念です。しかし、あなたの言う点では、は通常、よりも優れています。たくさんの小さなエフェクトを追加できます。L2L1
フランクハレル

わかりやすく説明していただきありがとうございます。それは理にかなっています。(はい、あなたは正しいです。私はPDをリスクの観点から正しい分類および/または被験者の順序付けの確率に関連する尺度と関連付けているので、「分類作業」と言ったのは速かったです。
usεr11852は回復モニック言う
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.