タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

1
リッジ回帰の結果がlm.ridgeとglmnetの使用で異なる
私はR. Iにおけるリッジ回帰を使用して回帰モデルの最良の変数の解決策を見つけるためにいくつかのデータを使用している適用lm.ridge及びglmnet(ときalpha=0)が、結果は、特にときに、非常に異なっていますlambda=0。両方のパラメーター推定器が同じ値を持っていると仮定します。それで、ここの問題は何ですか?宜しくお願いします

1
リッジとLASSOは共分散構造を与えられましたか?
Elements of Statistical Learning(Hastie、Tibshrani&Friedman)の第3章を読んだ後、共分散構造が与えられた場合、この質問のタイトルに引用された有名な収縮方法を実装できるかどうか、つまり( )量 (y⃗ −Xβ⃗ )TV−1(y⃗ −Xβ⃗ )+λf(β), (1)(y→−Xβ→)TV−1(y→−Xβ→)+λf(β), (1)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) 代わりに、通常の これは主に、私の特定のアプリケーションでは、→ yの分散が異なるという事実によって動機付けられました(y⃗ −Xβ⃗ )(y⃗ −Xβ⃗ )+λf(β). (2)(y→−Xβ→)(y→−Xβ→)+λf(β). (2)(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)y⃗ y→\vec{y}(場合によっては推定できる共分散構造)もあり、それらを回帰に含めたいと思います。私はリッジ回帰のためにそれを行いました:少なくともPython / Cでの実装では、係数が追跡するパスに重要な違いがあることがわかります。これは、両方の場合の交差検証曲線を比較するときにも顕著です。 現在、最小角度回帰を介してLASSOを実装する準備をしていましたが、それを行うには、(2 )ではなく最小化しても、そのすべての優れたプロパティがまだ有効であることを最初に証明する必要があります。これまでのところ、実際にこれを行う作業は見たことがありませんが、「統計を知らない人は統計を再発見する運命にある」(たとえば、Brad Efron) )、それが私が最初にここで尋ねている理由です(私が統計学文献の比較的新しい人であることを前提とします):これはこれらのモデルのどこかですでに行われていますか?Rに何らかの方法で実装されていますか?(最小化によるリッジの解決と実装を含む(1 )(1)(1)(1)(2)(2)(2)(1)(1)(1)代わりに、Rのlm.ridgeコードに実装されているものはどれですか?(2)(2)(2) ご回答ありがとうございます!

2
自由度と入力行列を指定してリッジ回帰の正則化パラメーターを計算する方法は?
A を独立変数の行列とし、Bを対応する従属値のn × 1行列とします。リッジ回帰では、パラメータ定義λを:だからβは= (A T A + λ I )- 1 A T B。ここで、[usv] = svd(A)およびd i = i t h 's'の対角エントリとしましょう。自由度を定義します(df)= ∑ n i = 1(d i)2n × pん×pn \times pn × 1ん×1n \times 1λλ\lambdaβ= (ATA + λ I)− 1あTBβ=(あTあ+λ私)−1あTB\beta=(A^\mathrm{T}A+\lambda I)^{-1}A^\mathrm{T}Bd私= iトンの時間d私=私thd_{i}=i^{th}。リッジ回帰は低分散成分の係数を縮小するため、パラメーターλは自由度を制御します。したがって、正規回帰の場合であるλ=0の場合、df = nであり、すべての独立変数が考慮されます。私が直面している問題は、「df」と行列「s」を指定して、λの値を見つけることです。私は上記の方程式を整理し直そうとしましたが、閉じた形の解決策を得ていませんでした。役立つポインタを提供してください。Σんi = 1(d私)2(d私)2+ λΣ私=1ん(d私)2(d私)2+λ\sum_{i=1}^{n} \frac{(d_{i})^2}{(d_{i})^2+\lambda}λλ\lambdaλ …

1
尾根となげなわの両方が別々にうまく機能するが、異なる係数を生成する場合の結果の解釈方法
LassoとRidgeの両方で回帰モデルを実行しています(0〜5の範囲の離散結果変数を予測するため)。モデルを実行する前に、のSelectKBestメソッドを使用scikit-learnして、機能セットを250から25に減らします。初期の特徴選択を行わないと、ラッソとリッジの両方で精度スコアが低くなります(サンプルサイズが600と小さいためである可能性があります)。また、一部の機能は相互に関連していることに注意してください。 モデルを実行した後、LassoとRidgeの予測精度はほぼ同じであることがわかります。ただし、係数の絶対値で並べ替えた後、最初の10個のフィーチャをチェックすると、最大で%50のオーバーラップがあることがわかります。 つまり、機能の重要性が各方法で割り当てられていることを考えると、選択したモデルに基づいてまったく異なる解釈をする可能性があります。 通常、機能はWebサイトでのユーザーの行動のいくつかの側面を表します。そのため、予測能力が高い機能(ユーザーの行動)と弱い機能(ユーザーの行動)を強調して、調査結果を説明したいと思います。しかし、今のところどうすればいいのかわかりません。モデルの解釈にはどのようにアプローチすればよいですか?たとえば、両方を組み合わせて重複するものを強調表示する必要がありますか、それとも解釈性が向上するので、投げ縄を使用する必要がありますか?

4
多重共線性は本当に問題ですか?
私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。 正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。 しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。 つまり、結局、多重共線性が問題になるのでしょうか。


2
RとSASでのリッジ回帰実装の違い
私は、Applied Linear Statistical Modelsの第5版第11章でリッジ回帰の説明を読んでいます。リッジ回帰は、ここで入手可能な体脂肪データに対して行われます。 教科書はSASの出力と一致します。ここで、逆変換された係数は、次のようにフィットモデルで与えられます: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 これはSASから次のように表示されます。 proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y …

3
非負のリッジ回帰を実行するにはどうすればよいですか?
非負のリッジ回帰を実行するにはどうすればよいですか?非負の投げ縄はで利用できますscikit-learnが、リッジの場合、ベータの非負を強制できません。実際、負の係数を取得しています。これがなぜか誰か知っていますか? また、通常の最小二乗法でリッジを実装できますか?これを別の質問に移動しました:OLS回帰の観点からリッジ回帰を実装できますか?

2
リッジ回帰における「行列反転の数値的安定性」の明快な説明とオーバーフィットの低減におけるその役割
私は最小二乗回帰問題で正則化を使用できることを理解しています w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] そして、この問題は次のような閉じた形の解決策を持っています: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 2番目の方程式では、正則化はX T Xの対角にを追加するだけであることがわかります。これは、行列反転の数値的安定性を改善するために行われます。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 数値の安定性に関する私の現在の「粗末な」理解は、関数がより「数値的に安定」すると、その出力はその入力のノイズの影響をあまり受けなくなるということです。数値安定性の向上というこの概念を、過剰適合の問題をどのように回避/軽減するかという全体像に関連付けるのが困難です。 私はウィキペディアや他のいくつかの大学のウェブサイトを見てみましたが、彼らはなぜこれがそうなのかを深く説明していません。

1
カーネルリッジ回帰の効率
リッジ回帰はとして表すことができますここで、は予測ラベルです、、行列を識別我々はのためのラベルを見つけようとしているオブジェクト、そしての行列オブジェクトように:y^=(X′X+aId)−1Xxy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}xy^y^\hat{y}IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots & x_{n,d} \end{pmatrix} これを次のようにカーネル化できます:y^=(K+aId)−1ky^=(K+aId)−1k\hat{y} = (\mathbf{\mathcal{K}} + …

2
制約付き対ペナルティ付きとしてのリッジ回帰の定式化:それらはどのように同等ですか?
私はさまざまな場所で見た線形回帰法についての主張を誤解しているようです。問題のパラメーターは次のとおりです。 入力: NNNそれぞれ「応答」量と 「予測」量から構成される量のデータサンプルp+1p+1p+1yiyiy_ipppxijxijx_{ij} 望ましい結果は「良好な線形適合」であり、これは予測子に基づいて応答を予測し、良好な適合は予測と観測された応答(他の基準の中で)との間にわずかな違いがあります。 出力:係数 whereは、予測変数から応答量を予測するための「適切な適合」です。 p+1p+1p+1βjβj\beta_jβ0+∑pj=1xij∗βjβ0+∑j=1pxij∗βj\beta_0 + \sum_{j=1}^p x_{ij} * \beta_j この問題に対する "リッジ回帰"アプローチについて混乱しています。Hastie、Tibshirani、およびFriedmanの63ページの「Elements of Statistical Learning」では、リッジ回帰が2つの方法で定式化されています。 まず、制約付き最適化問題として: P Σ J = 1 β 2 I ≤Targminβ∑i=1N(yi−(β0+∑j=1p(xij∗βj)))2argminβ∑i=1N(yi−(β0+∑j=1p(xij∗βj)))2 {argmin}_\beta \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 } 制約を受ける いくつかの正のパラメータt。∑j=1pβ2i≤t∑j=1pβi2≤t \sum_{j=1}^p \beta_i^2 \leq t 2つ目は、ペナルティ付きの最適化問題です: 、いくつかの正のパラメータです。 …


3
Rを使用したリッジ回帰のKフォールドまたはホールドアウト相互検証
200人の被験者と1000個の変数を使用したデータの予測の相互検証に取り組んでいます。変数の数(使用したい)がサンプルの数より大きいので、リッジ回帰に興味があります。したがって、収縮推定量を使用したいと思います。以下はデータの例です。 #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g))) myd <- data.frame(y=y, M) myd[1:10,1:10] y X1 …

3
kカテゴリ変数に相当する回帰平滑化スプラインでのkノットの選択?
私は、患者の年齢(年で測定された整数量)が予測変数の1つである予測コストモデルに取り組んでいます。年齢と入院のリスクの間の強い非線形関係は明らかです: 患者の年齢に応じて、ペナルティ付き回帰平滑化スプラインを検討しています。よると、統計的学習の要素(Hastieら、2009、P.151)、最適な結び目の配置は、会員の年齢のユニークな値ごとに結び目があります。 年齢を整数として保持しているとすると、ペナルティ付きスムージングスプラインは、データセットで見つかった年齢の値ごとに1つ(マイナス1つ)の、101の異なる年齢インジケーター変数でリッジ回帰または投げ縄を実行することに相当しますか?各年齢インジケーターの係数がゼロに向かって縮小されるため、過剰パラメーター化は回避されます。

1
不確定な方程式系にリッジ回帰を適用しますか?
場合、球状制限を課す最小二乗問題の値にのように書くことができる for the overdetermined system。\ | \ cdot \ | _2は、ベクトルのユークリッドノルムです。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ betaの対応する解ββ\betaは、\ begin {equation} \ hat {\ beta} = \ left(X ^ TX + \ lambda …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.