p> nの場合、投げ縄は最大n個の変数を選択します


13

エラスティックネットの動機の1つは、LASSOの次の制限でした。

では理由は凸最適化問題の性質のそれが飽和する前に、ほとんどのn個の変数の場合、投げ縄選択します。これは、変数選択方法の制限機能のようです。さらに、係数のL1ノルムの境界が特定の値より小さい場合を除き、投げ縄は明確に定義されていません。p>n

http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full

LASSOは2次計画問題であるが、LARSまたは要素ごとの勾配降下法によっても解決できることを理解しています。しかし、pは予測子の数、nはサンプルサイズ)の場合、これらのアルゴリズムのどこで問題が発生するかわかりません。そして、なぜこの問題がエラスティックネットを使用して解決されるのですか?ここで、pを明らかに超えるp + n変数に問題を拡大します。p>npnp+np


2
投げ縄が使用をp <= nの保持に制限する場合、それは美徳ではなく欠点である理由です。過剰適合は、p = nのときに生じる深刻な問題です。p = nのモデルは飽和モデルであり、観測されたデータに完全に適合しますが、将来のケースを必ずしもよく予測するわけではないため、多くの場合、そのモデルはオーバーフィットします。
マイケルR.チャーニック

3
投げ縄が最大変数のみを選択することは、一度に最大n個の変数のみをアクティブセットに許可するLARSアルゴリズム(のわずかな変更)を使用して解決できるという事実の結果として見ることができます。この弾性ネット場合には成立しないことが本質的に組み込むことから以下2ペナルティー及び全ての係数で、通常の結果が非ゼロである後者はより多くのリッジ回帰のような挙動、なります。nn2
枢機卿

答えてくれてありがとう、そして最大でn個の変数を選択できる勾配降下の場合、どのように見えるでしょうか:cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/でのプレゼンテーション…論文(セクション4)at datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@user:数学の問題とその数値解を混同しているのではないかと思います。LARSアルゴリズムは、なげなわソリューションが最大変数を選択することを示しています。これは、解に到達するための実際の数値的手段とは無関係です。つまり、LARSアルゴリズムは問題に関する洞察を提供しますが、もちろん、問題を同等に解決する他の方法は同じ特性を持たなければなりません。:n
枢機

回複製された機能を考えます。(p > nであっても)正確にpの非ゼロを持つなげなわ推定器が存在します。したがって、記述されたとおりにステートメントは正しくありません。ppp>n
user795305

回答:


10

前述のように、これはアルゴリズムの特性ではなく、最適化の問題です。KKT条件は、基本的には、係数のためにそれを与えるそれは残留と一定の相関関係に対応するように有する非ゼロに| X T JY - Xのβ | = λλは正則化パラメーターです)。βj|Xjt(yXβ)|=λλ

さまざまな問題を絶対値などで解決した後、各非ゼロ係数の線形方程式が残ります。行列のランクので、以下であるN場合、P > NXnp>n、これを解決することができる方程式の数であり、(冗長性が存在しない場合)、したがって最もN非ゼロです。

ところで、これは、損失を伴う標準的な投げ縄だけでなく、あらゆる損失関数に当てはまります。そのため、実際には投げ縄ペナルティのプロパティです。このKKTビューと結果の結論を示す多くの論文があります。Rossetand Zhu、Piecewise Linear Regularized Solutions Paths、Annals of Stats 2007およびその中のrefsを参照してください。L2


KKTは何の略ですか?また、標準的な投げ縄について話すとき、L1損失を意味する可能性はありますか?
三浦

こんにちはSaharon、サイトへようこそ。LaTeXを使用すると、数式をきれいにすることができます(回答でそうしました)。署名は自動的に追加されるため、投稿に署名する必要はありません。
ピーターフロム-モニカの復職

1
@miura:KKTはKarush-Kuhn-Tuckerの略です。KKT条件は、(十分に規則的な)最適化問題の解決策が満たさなければならない特定の方程式です(ウィキペディアの記事)。
モグロン

私はちょうどライアンTibshiraniは非常に関連する作業ペーパーがあることを確認:「なげなわ問題と一意性を。」stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731

6

別の説明は次のとおりです場合、データ行列Xのランクは最大nであるため、その(右の)ヌル空間の次元は少なくとも p nです。このヌル空間に任意のベクトルをzとして書き込みます。その後、任意の実行可能な点でβ、一方は常にに移動可能P - Nの座標軸に向かっ次元零空間P次元周囲空間は、到着するβ + Z(最大で)、N β jは Sでありますゼロ以外、およびLASSO目的関数n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

減少しました。


(+1)ここにはギャップがあります:OPの投稿に関する私のコメントを参照してください。
user795305
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.