通常、と正規化のみが通常存在するのはなぜなのか興味があります。これらが優れている理由の証拠はありますか?
通常、と正規化のみが通常存在するのはなぜなのか興味があります。これらが優れている理由の証拠はありますか?
回答:
@whuberのコメント(*)に加えて。
Hastie et alによる統計的学習とスパース性による本はこれについて議論しています。また、 "ノルム"(これは厳密な数学的意味ではノルムではないため引用符(**))と呼ばれるものを使用します。これは単にベクトルの非ゼロ成分の数をカウントします。
その意味では、変数の選択にはノルムが使用されますが、ノルムと一緒に凸でないため、最適化が困難です。彼らは、ノルム、つまりなげなわが「ノルム」(「最良のサブセット選択の最も近い凸状緩和」)の最高の凸化であると主張しています(圧縮センシングのドノホーから来たと思います)。その本は、他の規範のいくつかの使用も参照しています。単位ボール持つノルムのようになります
(ウィキペディアからの画像)なげなわが変数選択を提供できる理由の絵による説明は
この画像は、上記の参考書からのものです。投げ縄の場合(ダイヤモンドとして描かれた単位球)では、楕円(正方形の合計)の輪郭が最初に角の1つでダイヤモンドに触れる可能性がはるかに高いことがわかります。非凸の場合(最初の単位球の図)では、楕円体と単位球の間の最初の接触が角の1つになる可能性がさらに高く、その場合、投げ縄よりも変数選択がさらに強調されます。
Googleでこの「非凸ペナルティをなをと、 withようなペナルティをなような問題を行う多くの論文が得られます。
(*)完全を期すために、ここにwhuberのコメントをコピーします。
私はこの質問を特に調査していませんが、同様の状況での経験は、質の良い答えがあるかもしれないことを示唆しています:起源で二次微分可能なすべてのノルムは、互いにローカルで同等であり、そのノルムが標準です。他のすべての規範は原点で微分可能ではなく、質的にそれらの動作を再現します。それは色域をカバーしています。実際には、ノルムとノルムの線形結合は、原点で任意のノルムを2近似します。これが、残差をない回帰で最も重要なことです。
(**)「ノルム」は均一性に欠けています。これはノルムの公理の1つです。均質性とは、に対して。
この質問に対する答えは、「より良い」をどのように定義するかに大きく依存すると思います。私が正しい解釈をしているのなら、これらの規範が他の選択肢に比べて頻繁に現れるのはなぜかを知りたいと思うでしょう。この場合、答えはシンプルです。正則化の背後にある直観は、ベクターがあることです。そして、何らかの意味でそのベクターを「小さく」したいと思います。ベクターのサイズをどのように説明しますか?さて、あなたには選択肢があります:
ような代替の規範を採用することもできますが、上記のようなフレンドリーで物理的な解釈はありません。
このリスト内で、ノルムには、最小二乗問題などの問題に対する閉じた形式の優れた解析ソリューションがあります。無制限のコンピューティングパワーが得られるまでは、そうでなければ大きな前進はできませんでした。「矢印の長さ」のビジュアルは、他のサイズの尺度よりも人々にとっても魅力的だと推測します。正則化のために選択した規範は、最適なソリューションで得られる残差のタイプに影響を与えますが、ほとんどの人は、a)それを知っている、またはb)問題を定式化するときにそれを深く考えていないと思います。この時点で、ほとんどの人はを使用し続けると予想されます。なぜなら、それは「みんながすること」です。
類推は指数関数 -これは物理学、経済学、統計、機械学習、または他の数学的に駆動される分野で文字通りどこにでも現れます。人生のすべてが指数関数で記述されているように見えるのはなぜかと私は思いました。指数関数は代数と計算を行うのに非常に便利な特性を持っているため、現実世界で何かをモデル化しようとするとき、数学者のツールボックスで最も重要な機能になります。デコヒーレンス時間のようなものは高次の多項式によって「より良く」記述されているかもしれませんが、代数を使うのは比較的難しく、結局のところあなたの会社がお金を稼いでいることが重要です-指数はよりシンプルで十分です。
そうでなければ、規範の選択は非常に主観的な影響を与え、最適な解決策であなたが好むものを定義するのは問題を述べる人としてあなた次第です。ソリューションベクトル内のすべてのコンポーネントの大きさが似ているか、最大のコンポーネントのサイズが可能な限り小さいことをもっと気にしますか?その選択は、解決している特定の問題に依存します。