タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

2
リッジ回帰–ベイジアン解釈
事前分布が適切に選択されていれば、リッジ回帰は事後分布の平均として導出できると聞いています。事前によって回帰係数に設定された制約(たとえば、0付近の標準正規分布)は同一である/係数の二乗サイズに設定されたペナルティを置き換えるという直感はありますか?この等価性が成立するためには、事前分布はガウス分布である必要がありますか?

1
リッジ回帰の文脈におけるラグランジアン緩和
「統計的学習の要素」(第2版)p63で、著者はリッジ回帰問題の次の2つの定式化を示しています。 β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} そして β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβ2j≤t.β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβj2≤t. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq t. この2つは同等であり、パラメーターと間には1対1の対応があると主張されています。λλ\lambdattt 最初の定式化は2番目の定式化のラグランジアン緩和であると思われます。しかし、ラグランジアンリラクゼーションがどのように、またはなぜ機能するのか、直感的に理解できたことはありません。 2つの定式化が実際に同等であることを示す簡単な方法はありますか?選択する必要がある場合は、厳密さよりも直感を好むでしょう。 ありがとう。

4
リッジ回帰の等価式の証明
統計学習で最も人気のある本を読みました 1- 統計学習の要素。 2- 統計学習の紹介。 どちらも、リッジ回帰には同等の2つの式があることに言及しています。この結果を理解できる数学的な証拠はありますか? Cross Validatedも通過しましたが、そこには明確な証拠が見つかりません。 さらに、LASSOは同じタイプの証明を享受しますか?

1
OLS係数よりも大きいか、
リッジ回帰を実行する場合、最小二乗の下で対応する係数より大きくなる係数をどのように解釈しますか(特定の値について)?リッジ回帰は単調に係数を縮小すると想定されていませんか?λλ\lambda 関連するノートでは、リッジ回帰中に符号が変化する係数をどのように解釈しますか(つまり、リッジトレースプロットでリッジトレースが負から正に交差する)。


2
AIC、BIC、GCV:ペナルティ付き回帰法で決定を下すのに最適なものは何ですか?
私の一般的な理解は、AICがモデルの適合度とモデルの複雑さの間のトレードオフを扱うことです。 A IC= 2 k − 2 l n (L )A私C=2k−2ln(L)AIC =2k -2ln(L) =モデル内のパラメーターの数kkk =尤度LLL ベイジアン情報基準BICは、AICと密接に関連しています。AICは、BICよりも少ない数のパラメーターにペナルティを科します。これらの2つは歴史的にどこでも使用されていることがわかります。しかし、一般化された相互検証(GCV)は私にとって新しいものです。GCVとBICまたはAICの関係 リッジのようなパネル化された回帰のペナルティ用語の選択で、これらの基準が一緒にまたは別々にどのように使用されますか? 編集: ここに考えて議論する例があります: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p <- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out <- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …

1
リッジ回帰のAIC:自由度とパラメーターの数
リッジ回帰モデルのAICcを計算します。問題はパラメーターの数です。線形回帰の場合、ほとんどの人は、パラメーターの数が推定係数とシグマ(誤差の分散)の数に等しいことを示唆しています。 リッジ回帰に関しては、ハットマトリックスのトレース(自由度(df))がAIC式のパラメーターの項の数として単純に使用されることを読みました(たとえばhereまたはhere)。 これは正しいです?dfを使用してAICcを計算することもできますか?エラー分散を説明するために、dfに+1を追加することはできますか?

1
多重共線性の存在下でリッジ回帰がうまく機能するのはなぜですか?
私はリッジ回帰について学んでいますが、リッジ回帰は多重共線性の存在下でうまく機能する傾向があることを知っています。なぜこれが本当なのだろうか?直感的な答えか数学的な答えのどちらかが満足のいくものになります(両方のタイプの答えがさらに満足できるでしょう)。 また、私はそのことを知っているβを常に得ることができますが、どれだけ正確な共線の存在下で、リッジ回帰の仕事(1つの独立変数は、他の線形関数である)ん?β^β^\hat{\beta}

2
LASSOは相関予測変数をいつ選択しますか?
Rのパッケージ「lars」を次のコードで使用しています。 > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > cor(cbind(y,x)) y x1 x2 …

2
行増強を使用してリッジがペナルティーを課したGLM?
リッジ回帰は、元のデータ行列にデータの行を追加するだけで達成できることを読みました。各行は、従属変数に0 、独立変数にkkk平方根またはゼロを使用して構築されます。次に、独立変数ごとに1行追加されます。 ロジスティック回帰や他のGLMを含め、すべての場合に証拠を導き出すことが可能かどうか疑問に思っていました。

1
負のリッジ回帰を理解する
負の尾根回帰に関する文献を探しています。 要するに、それは負の使用線形リッジ回帰の一般化であるλλ\lambda推定式β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.ポジティブなケースには素晴らしい理論があります:損失関数として、制約として、以前のベイズとして...しかし、私は上記の式だけを使ったネガティブなバージョンで迷っています。それはたまたま私がしていることには役立ちますが、私はそれを明確に解釈することができません。 ネガティブリッジに関する深刻な導入テキストを知っていますか?どのように解釈できますか?

5
リッジとLASSOの基準
この投稿はこれに続きます:対角線に定数を追加することにより、隆起推定がOLSよりも優れているのはなぜですか? これが私の質問です: 私の知る限り、リッジの正則化はノルム(ユークリッド距離)を使用します。しかし、なぜこの基準の2乗を使用するのですか?(を直接適用すると、ベータ2乗の合計の平方根になります)。ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 比較として、正規化にを使用するLASSOではこれを行いません。しかし、これは「実際の」ノルムです(ベータ絶対値の2乗の合計であり、この合計の2乗ではありません)。ℓ 1ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1 誰かが私を明確にするのを手伝ってくれる?

2
リッジ回帰がLASSOよりも優れた解釈可能性を提供できないのはなぜですか?
リッジ回帰とLASSOの長所と短所についてはすでに考えています。 pppんnnんnnんnnppp リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。 上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。 特徴の範囲を正規化して(たとえば、0と1の間、または平均と単位の分散がゼロの場合)、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます(最も重要な特徴には係数の最高絶対値)。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか? LASSOは、その機能選択の性質上、推奨されますか?私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。 計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果(スパースベクトル)を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット(たとえば、100万のうち500)をフィードするだけなので、予測を少し速くすることができます。 LASSOが一般化する機能に適している場合は、リッジ回帰(または他の種類の正則化)を使用して同じ目標を達成することもできます。なぜ再びLASSO(またはエラスティックネット)が必要なのですか?なぜリッジ回帰だけに固執できないのですか? 誰かがこれにいくつかの光を当ててもらえますか?ありがとう!

2
KKTを使用した Norm正則回帰と Norm制約付き回帰の同等性の表示
参考文献によると、ブック1、ブック2および紙。 正則化された回帰(Ridge、LASSO、Elastic Net)とそれらの制約式の間には同等性があると述べられています。 私も見てきましたクロス検証済み1、およびクロス検証済み2、私は明確な答え等価ショーやロジックを見ることができません。 私の質問は Karush–Kuhn–Tucker(KKT)を使用してその同等性を示す方法は? 次の式はリッジ回帰用です。 注意 この質問は宿題ではありません。このトピックの理解を深めるだけです。 更新 私はまだアイデアを思いつきません。

2
収縮が巧妙な方法で適用される場合、それは常により効率的な推定量に対してよりよく機能しますか?
私は2つの推定量があるとと同じパラメータの一致推定量であるとなるように psdの意味 でのしたがって、漸近的にはよりも効率的です。これらの2つの推定量は、異なる損失関数に基づいています。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0V1≤V2 β 1 β 2ん−−√(βˆ1- β0)→dN(0 、V1)、ん−−√(βˆ2- β0)→dN(0 、V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤ V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ここで、私の推定量の有限標本特性を改善するために、いくつかの縮小手法を探したいと思います。 私は推定向上収縮技術見出さ仮定する有限のサンプル中にに等しい私MSEの値を与えるγ 2。これは私がして適用するための適切な収縮技術見つけることができることを意味するものではないβ 1 MSEに私に与えないだろう以下でγ 2を? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 言い換えると、縮小が巧妙に適用されている場合、より効率的な推定量に対しては常により効果的に機能しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.