なぜと正則化のみが表示され、他の標準は表示されないのですか？

通常、 $L_1$ と $L_2$ 正規化のみが通常存在するのはなぜなのか興味があります。これらが優れている理由の証拠はありますか？

lasso regularization ridge-regression

— user10024395
ソース

（+1）私はこの質問を特に調査していませんが、同様の状況での経験は、質の良い答えがあるかもしれないことを示唆しています：起源で二次微分可能なすべてのノルムは、ローカルで互いに等価であり、その標準が標準です。他のすべての規範は、原点で微分可能ではなく、それらの動作を定性的に再現します。それは色域をカバーしています。実際には、とノルムの線形結合は、原点で任意のノルムを2次に近似します。これは、残差を逸脱しない回帰で最も重要なことです。

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

— whuber

はい：これは本質的にテイラーの定理です。

— whuber

質問の前提は偽です：あまり一般的ではありんが、他の -normsが使用されます。

ℓ_{p}

$\ell_p$

— Firebug

@whuberが言及している線形結合は、しばしばエラスティックネットと呼ばれます。

— ルカシティ

また、Lpノルムの中で、は多くの燃費を獲得します。

L^{\infty}

$L^\infty$

— -user795305

回答:

@whuberのコメント（*）に加えて。

Hastie et alによる統計的学習とスパース性による本はこれについて議論しています。また、 "ノルム"（これは厳密な数学的意味ではノルムではないため引用符（**））と呼ばれるものを使用します。これは単にベクトルの非ゼロ成分の数をカウントします。 $L_0$

その意味では、変数の選択にはノルムが使用されますが、ノルムと一緒に凸でないため、最適化が困難です。彼らは、ノルム、つまりなげなわが「ノルム」（「最良のサブセット選択の最も近い凸状緩和」）の最高の凸化であると主張しています（圧縮センシングのドノホーから来たと思います）。その本は、他の規範のいくつかの使用も参照しています。単位ボール持つノルムのようになります $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

（ウィキペディアからの画像）なげなわが変数選択を提供できる理由の絵による説明は

この画像は、上記の参考書からのものです。投げ縄の場合（ダイヤモンドとして描かれた単位球）では、楕円（正方形の合計）の輪郭が最初に角の1つでダイヤモンドに触れる可能性がはるかに高いことがわかります。非凸の場合（最初の単位球の図）では、楕円体と単位球の間の最初の接触が角の1つになる可能性がさらに高く、その場合、投げ縄よりも変数選択がさらに強調されます。

Googleでこの「非凸ペナルティをなをと、 withようなペナルティをなような問題を行う多くの論文が得られます。 $l_q$ $q < 1$

（*）完全を期すために、ここにwhuberのコメントをコピーします。

私はこの質問を特に調査していませんが、同様の状況での経験は、質の良い答えがあるかもしれないことを示唆しています：起源で二次微分可能なすべてのノルムは、互いにローカルで同等であり、そのノルムが標準です。他のすべての規範は原点で微分可能ではなく、質的にそれらの動作を再現します。それは色域をカバーしています。実際には、ノルムとノルムの線形結合は、原点で任意のノルムを2近似します。これが、残差をない回帰で最も重要なことです。 $L_2$ $L_1$ $L_1$ $L_2$

（**）「ノルム」は均一性に欠けています。これはノルムの公理の1つです。均質性とは、に対して。 $l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

— kjetil b halvorsen
ソース

@kjetilbhalvorsen深い答えをありがとう。質問とタイトルとの一貫性を保つために、珍しい上付き文字を選択します。もちろん、好きなように書くことができます。

— フェルディ

@kjetilbhalvorsen Whuberのコメントを少し拡大していただけますか？ノルムは原点で微分できないことはよく知られています（たとえば考慮してください）。規範の「局所的等価性」が何を意味するのかも明確ではありません。控えめに言っても、参照が必要です。

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

— オリビエ

@Olivier -norm は原点で微分可能であり、について考えています。

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

— ファイアバグ

@Firebugいいえ。1次元のノルムについて考えています。これはノルムと同じです。何か不足していますか？

L^{2}

$L^2$

L^{1}

$L^1$

— オリビエ

@オリビエああ、あなたは実際に正しいです。2乗の -normが実際に使用されており、どこでも微分可能だからです。

ℓ_{2}

$\ell_2$

— Firebug

この質問に対する答えは、「より良い」をどのように定義するかに大きく依存すると思います。私が正しい解釈をしているのなら、これらの規範が他の選択肢に比べて頻繁に現れるのはなぜかを知りたいと思うでしょう。この場合、答えはシンプルです。正則化の背後にある直観は、ベクターがあることです。そして、何らかの意味でそのベクターを「小さく」したいと思います。ベクターのサイズをどのように説明しますか？さて、あなたには選択肢があります：

要素の数をカウントしますか？ $(L_0)$
すべての要素合計しますか？ $(L_1)$
「矢印」の長さを測定しますか？ $(L_2)$
最大の要素のサイズを使用していますか？ $(L_\infty)$

ような代替の規範を採用することもできますが、上記のようなフレンドリーで物理的な解釈はありません。 $L_3$

このリスト内で、ノルムには、最小二乗問題などの問題に対する閉じた形式の優れた解析ソリューションがあります。無制限のコンピューティングパワーが得られるまでは、そうでなければ大きな前進はできませんでした。「矢印の長さ」のビジュアルは、他のサイズの尺度よりも人々にとっても魅力的だと推測します。正則化のために選択した規範は、最適なソリューションで得られる残差のタイプに影響を与えますが、ほとんどの人は、a）それを知っている、またはb）問題を定式化するときにそれを深く考えていないと思います。この時点で、ほとんどの人はを使用し続けると予想されます。なぜなら、それは「みんながすること」です。 $L_2$ $L_2$

類推は指数関数 -これは物理学、経済学、統計、機械学習、または他の数学的に駆動される分野で文字通りどこにでも現れます。人生のすべてが指数関数で記述されているように見えるのはなぜかと私は思いました。指数関数は代数と計算を行うのに非常に便利な特性を持っているため、現実世界で何かをモデル化しようとするとき、数学者のツールボックスで最も重要な機能になります。デコヒーレンス時間のようなものは高次の多項式によって「より良く」記述されているかもしれませんが、代数を使うのは比較的難しく、結局のところあなたの会社がお金を稼いでいることが重要です-指数はよりシンプルで十分です。 $e^x$

そうでなければ、規範の選択は非常に主観的な影響を与え、最適な解決策であなたが好むものを定義するのは問題を述べる人としてあなた次第です。ソリューションベクトル内のすべてのコンポーネントの大きさが似ているか、最大のコンポーネントのサイズが可能な限り小さいことをもっと気にしますか？その選択は、解決している特定の問題に依存します。

— 赤いパンダ
ソース

主におよび規範を見る主な理由は、それらが現在のアプリケーションの大部分をカバーしていることです。たとえば、タクシカブノルムとも呼ばれるノルムは、格子直結ノルムであり、絶対値normを含みます。 $L_1$ $L_2$ $L_1$

$L_2$ ノルムは最小二乗法に加えて、あるにユークリッド距離 -space $n$ ならびに複素変数ノルム。さらに、チホノフ正則化とリッジ回帰、つまり最小化するアプリケーションは、ノルムと見なされることがよくあります。 $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

ウィキペディアは、これらおよび他の規範に関する情報を提供します。言及する価値があるのはです。一般化されたノルム、ノルムは均一ノルムとも呼ばれます。 $L_0$ $L_p$ $L_\infty$

— カール
ソース