タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

1
L1正則化による回帰はLassoと同じであり、L2正則化による回帰はリッジ回帰と同じですか?そして、「投げ縄」の書き方は?
私は、特にAndrew Ngの機械学習コースを通じて機械学習を学習するソフトウェアエンジニアです。正則化で線形回帰を研究していると、混乱する用語が見つかりました。 L1正則化またはL2正則化による回帰 ラソ リッジ回帰 だから私の質問: L1正則化による回帰はLASSOとまったく同じですか? L2正則化による回帰は、リッジ回帰とまったく同じですか? 「LASSO」は書面でどのように使用されますか?それは「LASSO回帰」でしょうか?「投げ縄がより適切である」などの使用法を見てきました。 上記の1と2の答えが「はい」の場合、なぜこれら2つの用語に異なる名前があるのですか?「L1」と「L2」はコンピューターサイエンス/数学から、「LASSO」と「リッジ」は統計から来ていますか? これらの用語の使用は、次のような投稿を見たときに混乱を招きます。 「L1とL2の正則化の違いは何ですか?」(quora.com) 「なげなわとリッジのどちらを使用すべきですか?」(stats.stackexchange.com)



2
L1の正則化はL2よりもうまく機能しますか?
注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。 使用する正則化(L1またはL2)の決定方法 L1 / L2正則化のそれぞれの長所と短所は何ですか? 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

2
glmnet ridge回帰が手動計算とは異なる答えを与えるのはなぜですか?
glmnetを使用して、リッジ回帰推定値を計算しています。glmnetが本当に思っていることを実際に行っているという点で、私は疑わしい結果になりました。これを確認するために、簡単なRスクリプトを作成し、solveとglmnetで行われたリッジ回帰の結果を比較しました。違いは重要です。 n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 違いの標準は通常20前後であり、これは数値的に異なるアルゴリズムが原因ではないため、何か間違ったことをしているに違いありません。glmnetridgeと同じ結果を得るために設定する必要がある設定は何ですか?

3
回帰におけるリッジ正則化の解釈
最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。 βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、(変数が手順の前に標準化されると仮定して)入力変数間の相関が低下することを意味します。この解釈は正しいですか? 2)それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。 3)[0,1]のような標準範囲に制限できるように、正規化λλ\lambdaできるもの。 4)対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか?これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか(相互共分散計算を変更しないため)? 5)我々は、クロス共分散を正則化することも、意味、任意の用途を有するないβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ここで、小さなγγ\gammaは相互共分散を低下させます。これは明らかにすべてのββ\beta等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。

4
L1回帰推定値の中央値とL2回帰推定値の平均
そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?

1
ブリッジペナルティとElastic Netの正則化
LASSO(L1L1L_1)やRidge(L2L2L_2)など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。 ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}。γ≥1γ≥1\gamma \geq 1∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1} Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します(pppはミンコフスキー距離の累乗です)。 p=1p=1p = 1はLASSOに対応し、p=2p=2p = 2はリッジに対応し、p=1.4p=1.4p = 1.4は1つの可能なブリッジに対応します。Elastic Netは、L1L1L_1およびL2L2L_2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます(Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています)。 では、のBridgeは、正則化(スパース性以外)に関してElastic Netとどのように比較されますか?私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1&lt;γ&lt;21&lt;γ&lt;21<\gamma <2 …

2
場合の「単位分散」リッジ回帰推定量の制限
に単位平方和(同等に、単位分散)が必要な追加の制約を使用したリッジ回帰を検討してください。必要に応じて、は単位平方和もあると想定できます。 Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ inftyの場合、\ hat {\ boldsymbol \ beta} _ \ lambda ^ *の制限は何ですか?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下は、私が真実だと信じている声明です。 \ lambda = 0の場合λ=0λ=0\lambda=0、きちんとした明示的な解決策があります。OLS推定器を取るβ^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yおよび制約を満たすように正規化します(ラグランジュ乗数を追加して微分することでこれを見ることができます): β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. …

2
正規化された推定による信頼区間のカバレッジ
何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。 問題は、信頼区間を推定するときに発生します(たとえば、ラプラス近似またはブートストラップを使用)。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。 この問題について議論している論文をいくつか見つけました(例:「エッジワース展開に基づくリッジ回帰の漸近信頼区間」)が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。 一次補正でさえ非常に役立ちます。


2
リッジ回帰の仮定とそれらをテストする方法は何ですか?
多重回帰のための標準的なモデル検討、全ての保留正常、等分散性及びエラーのuncorrelatednessので。ε 〜N(0 、σ 2 I N)Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε 〜N(0 、σ2私n)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) の対角のすべての要素に同じ少量を追加することにより、リッジ回帰を実行するとします。バツXX βr i d g e= [ X′バツ+ k I]− 1バツ′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y はバイアス推定器ですが、リッジ係数の平均二乗誤差がOLSによって得られる値よりも小さい値がいくつかあります。実際には、は相互検証によって取得されます。β R I D G E β Kkkkβr i d g eβridge\beta_\mathrm{ridge}ββ\betakkk ここに私の質問があります:リッジモデルの基礎となる仮定は何ですか?具体的には、 リッジ回帰では、通常の最小二乗(OLS)の仮定はすべて有効ですか? 質問1が「はい」の場合、偏った推定量して、等分散性と自己相関の欠如をどのようにテストしますか?ββ\beta リッジ回帰の下で他のOLS仮定(同相性と自己相関の欠如)をテストする作業はありますか?

1
「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明
リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

2
ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定
ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか? さらに、モデルの全体的な重要性をテストすることに興味があります(つまり、R²= 0を実行するか、すべてを= 0にします)。 ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。 回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。 それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。 残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。 したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。

3
リッジ回帰とPCA回帰の関係
私はウェブ上のどこかでリッジ回帰(正則化)とPCA回帰の関係を読んだことを覚えています:ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 なぜこれが本当ですか? これは最適化手順と関係がありますか?単純に、私はそれがOLSと同等であると予想していました。 誰かがこれに関するリファレンスを持っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.