L2よりもL1正則化を使用する理由


10

損失関数を使用して線形回帰モデルを実行するのに、なぜL 2ではなくを使用する必要があるのかL1L2正則?

過剰適合を防ぐ方が良いですか?それは確定的ですか?(常にユニークなソリューションです)?(スパースモデルを生成するため)特徴選択の方が優れていますか?機能間で重みを分散しますか?


2
L2は変数の選択を行わないため、L1の方が決定的に優れています。
マイケルM

回答:


5

基本的に、係数が完全にフィットしてオーバーフィットしないようにするために、正則化項を追加します。

L1とL2の違いは、L1は重みの合計であり、L2は重みの2乗の合計です。

L1はL2とは区別できないため、勾配ベースのアプローチでは使用できません。

L1は、スパースフィーチャスペースでのフィーチャ選択の実行に役立ちます。

それらのプロパティの違いは次のように要約できます。

l1対l2


1
「L1を勾配ベースのアプローチで使用できない」というのは真実ではありません。たとえばKerasはそれをサポートしています。はい、導関数は常に一定であるため、勾配降下法で最小値を見つけることが難しくなります。しかし、正則化は損失関数内の小さな項であるため、物事の壮大なスキームではそれほど重要ではありません。
Ricardo Cruz

-1

L2には、L1に対して非常に重要な利点が1つあります。それは、回転とスケールに対する不変性です。

これは、地理的/物理的なアプリケーションで特に重要です。

技術者が誤って45度の角度でセンサーを取り付けたとします。L1は影響を受けますが、L2(ユークリッド距離)は同じままです。


4
これは質問に対する答えではありません。
kbrose 2017年

不変性について説明していただけますか?
aneesh joshi 2017

@チャティ、問題は正則化についてです。損失関数における1ノルムと2ノルムの他の使用法と混同しています。
Ricardo Cruz
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.