注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。
- 使用する正則化(L1またはL2)の決定方法
- L1 / L2正則化のそれぞれの長所と短所は何ですか?
- 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?
注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。
回答:
使用する正則化(L1またはL2)の決定方法
あなたの目標は何ですか?結果と反対の関係にある特徴は互いに「相殺」できるため、係数にペナルティを課すことにより、モデルの一般化を改善できます(大きな正の値は大きな負の値で相殺されます)。これは、同一直線上の特徴がある場合に発生する可能性があります。データの小さな変更により、パラメーター推定値が大幅に異なる場合があります(高分散推定値)。ペナルティにより、両方の係数を小さく抑えることができます。(Hastie et al、Elements of Statistics Learning、第2版、p.63)
L1 / L2正則化のそれぞれの長所と短所は何ですか?
L1正則化は、係数ノルムを制約し、いくつかの係数値を0に固定することにより、多重共線性の問題に対処できます。観測値よりも多くの特徴がある場合、lassoは最大で非ゼロ係数を保持します。コンテキストに応じて、それはあなたが望むものではないかもしれません。
L1正則化は、機能選択方法として使用される場合があります。使用できる機能の数に何らかのハードキャップがあると仮定します(すべての機能のデータ収集には費用がかかるため、または保存できる値の数に厳しいエンジニアリング上の制約があるためなど)。L1ペナルティを調整して、必要な数の非ゼロフィーチャをヒットすることができます。
L2正則化は、係数ノルムを制約し、すべての変数を保持することにより、多重共線性の問題に対処できます。係数を正確に0と推定することはほとんどありません。何らかの理由でスパース係数ベクトルが重要でない限り、これは必ずしも欠点ではありません。
回帰設定では、観測よりも多くの特徴を持つ回帰を推定する問題の「古典的な」解決策です。L2正則化は、観測より多くの特徴がある場合でも、各特徴の係数を推定できます(実際、これは「リッジ回帰」の元の動機でした)。
別の方法として、エラスティックネットはL1およびL2の正則化を特別なケースとして許可します。業界のデータサイエンティストの典型的な使用例は、最適なモデルを選択するだけですが、L1、L2、またはその両方を使用してペナルティを課すかどうかは必ずしも気にしません。エラスティックネットは、このような状況では便利です。
最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?
私はL1-then-L2パイプラインを提案している出版物に精通していませんが、これはおそらく私の無知にすぎません。問題はないようです。文献レビューを行います。
同様の「段階的」パイプラインの例がいくつかあります。1つは「緩和されたなげなわ」です。これは、なげなわ回帰を2回適用します。1つは大きなグループから小さなグループの特徴を下向きに選択し、2つ目はモデルで使用する係数を推定します。これは、ペナルティの大きさを選択するために各ステップで相互検証を使用します。その理由は、最初のステップで相互検証を行い、関連のない予測変数を除外するために大きなペナルティを選択する可能性が高いからです。2番目のステップでは、相互検証を行い、ペナルティを小さくします(したがって、係数を大きくします)。これについては、ニコライ・マインズハウゼンの引用による「統計的学習の要素」で簡単に説明されています(「緩和された投げ縄」。計算統計およびデータ分析)。 Volume 52、Issue 1、2007年9月15日、pp 374-393)。
ユーザー@amoebaは、L1-then-OLSパイプラインも提案します。これは、L1ペナルティの大きさに対するハイパーパラメータが1つしかないため、いじる必要が少ないため、素晴らしいかもしれません。
一部のステップを実行してから他のステップを個別に実行する「フェーズ」分析パイプラインで発生する可能性のある問題の1つは、これらの異なるアルゴリズム間に「可視性」がないため、1つのプロセスが前のステップで発生したデータスヌーピングを継承することです。この影響は無視できません。モデリングの概念が不十分だと、ガベージモデルが作成される可能性があります。
データスヌーピングの副作用を回避する1つの方法は、すべての選択を相互検証することです。ただし、計算コストの増加は法外なものになる可能性があります。
一般的に、最適な予測が必要な場合はL2を使用します。予測的差別をいくらか犠牲にして節約したい場合は、L1を使用します。しかし、節約は幻想的である可能性があることに注意してください。たとえば、ブートストラップを使用してなげなわプロセスを繰り返すと、特に予測子が相互に関連付けられている場合、「選択」された特徴のリストに大きな不安定性が現れることがよくあります。