L2よりもL1正則化を使用する理由

10

損失関数を使用して線形回帰モデルを実行するのに、なぜではなくを使用する必要があるのか $L_1$ $L_2$ 正則？

過剰適合を防ぐ方が良いですか？それは確定的ですか？（常にユニークなソリューションです）？（スパースモデルを生成するため）特徴選択の方が優れていますか？機能間で重みを分散しますか？

linear-regression regularization

— 学生
ソース

2

L2は変数の選択を行わないため、L1の方が決定的に優れています。

— マイケルM

1

stats.stackexchange.com/questions/866/...

— HelloWorldの

5

基本的に、係数が完全にフィットしてオーバーフィットしないようにするために、正則化項を追加します。

L1とL2の違いは、L1は重みの合計であり、L2は重みの2乗の合計です。

L1はL2とは区別できないため、勾配ベースのアプローチでは使用できません。

L1は、スパースフィーチャスペースでのフィーチャ選択の実行に役立ちます。

それらのプロパティの違いは次のように要約できます。

— バティーニプラナイクマール
ソース

1

「L1を勾配ベースのアプローチで使用できない」というのは真実ではありません。たとえばKerasはそれをサポートしています。はい、導関数は常に一定であるため、勾配降下法で最小値を見つけることが難しくなります。しかし、正則化は損失関数内の小さな項であるため、物事の壮大なスキームではそれほど重要ではありません。

— Ricardo Cruz

-1

L2には、L1に対して非常に重要な利点が1つあります。それは、回転とスケールに対する不変性です。

これは、地理的/物理的なアプリケーションで特に重要です。

技術者が誤って45度の角度でセンサーを取り付けたとします。L1は影響を受けますが、L2（ユークリッド距離）は同じままです。

— チャティデナティ
ソース

4

これは質問に対する答えではありません。

— kbrose 2017年

不変性について説明していただけますか？

— aneesh joshi 2017

@チャティ、問題は正則化についてです。損失関数における1ノルムと2ノルムの他の使用法と混同しています。

— Ricardo Cruz