タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

2
尾根回帰の結果を理解する
リッジ回帰は初めてです。線形リッジ回帰を適用すると、次の結果が得られました。 >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668 smallest value of GCV at 0 質問: ゼロを取得しても大丈夫GCVですか? 正確にはどういう意味ですか? モデルに問題はありますか? の値をどのように見つけることができますか?R2R2R^2myridge

1
エラスティックネット回帰におけるラムダの範囲
\def\l{|\!|} 弾性ネット回帰が与えられた minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 クロス検証のために適切な範囲の\ lambdaをどのように選択できλλ\lambdaますか? でα=1α=1\alpha=1の場合(リッジ回帰)式 dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} 各ラムダに同等の自由度を与えるために使用でき(ここでsjsjs_jはXの特異値ですXXX)、自由度は適切な範囲で選択できます。 ではα=0α=0\alpha=0の場合(なげなわ)私たちが知っていること λ>λmax=maxj|∑tytXtj|λ>λmax=maxj|∑tytXtj|\lambda > \lambda_{\textrm{max}} = \max_j|\sum_t y_t X_{tj}| 結果として、すべてのbjbjb_jはゼロになり、λλ\lambdaは(0、\ lambda_ \ textrm {max})の範囲で選択できます(0,λmax)(0,λmax)(0, \lambda_\textrm{max})。 しかし、どのように混合ケースを処理するのですか?

2
リッジ回帰のPRESS統計
通常の最小二乗法では、一連の予測子に対してターゲットベクトル回帰し、ハット行列は次のように計算されます。XyyyバツXX H= X(Xtバツ)− 1バツtH=X(XtX)−1XtH = X (X^tX)^{-1} X^t PRESS(予測残差平方和)は、 SSP= ∑私(e私1 − 時間I I)2SSP=∑i(ei1−hii)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 ここで、は番目の残差、はハット行列の対角要素です。 I H I Ie私eie_iiiihiihiih_{ii} ペナルティ係数したリッジ回帰では、ハット行列は次のように変更されます。λλ\lambda H=X(XtX+λI)−1XtH=X(XtX+λI)−1XtH = X (X^t X + \lambda I)^{-1} X^t PRESS統計は、修正されたハットマトリックスを使用して同じ方法で計算できますか?

1
要約されたデータからの正規化適合:パラメーターの選択
私の以前の質問に続いて、リッジ回帰の正規方程式の解は次のように与えられます: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty 正則化パラメーターを選択するためのガイダンスを教えてください。また、対角のため、観測数で育つ、必要がありますまたの関数である?λλ\lambdaXTXXTXX^TXmmmλλ\lambdammm

1
機能選択に投げ縄を使う理由
高次元のデータセットがあり、特徴選択を実行したいとします。1つの方法は、このデータセットで最も重要な機能を特定できるモデルをトレーニングし、これを使用して最も重要でない機能を破棄することです。 実際には、これにsklearnのSelectFromModelトランスフォーマーを使用します。ドキュメントによると、feature_importances_またはcoef_属性のいずれかを持つ任意の推定量はそうするでしょう。 ほかになげなわ、他の多くの線形モデルは、この属性を持つ(線形回帰、リッジとElasticNetは少数を示すために)との識別のために使用することができる最も重要な機能を。 Lassoがデータセットの最も重要な特徴を特定するための最も人気のあるモデルになっている理由は何ですか?

1
隆起回帰のL2正規化は切片を罰しますか?そうでない場合、その派生物をどのように解決しますか?
MLは初めてです。リッジ回帰のL2正規化は切片罰しないことが通知されました。コスト関数と同様: L2正規はからまでの合計のみで、からまでの合計ではありません。私もそれを読みました:θ0θ0\theta_{0}∇θJ(θ)=12∑i=1m(hθ⃗ (x(i))−y(i))2+λ∑j=1nθ2j∇θJ(θ)=12∑i=1m(hθ→(x(i))−y(i))2+λ∑j=1nθj2 \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} λ∑nj=1θ2jλ∑j=1nθj2\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}j=1j=1j=1nnnj=0j=0j=0nnn ほとんどの場合(すべての場合?)、正則化しないほうがよいです。オーバーフィットを減らし、表現可能な関数のスペースを縮小する可能性が低いためです。θ0θ0\theta_{0} これは、user48956の最後の回答から来ています。 ため、コスト関数の導関数を解く方法について混乱しています。 ここで、および。∇θJ(θ)=12(Xθ−Y)T(Xθ−Y)+λ(θ′)Tθ′,∇θJ(θ)=12(Xθ−Y)T(Xθ−Y)+λ(θ′)Tθ′, \nabla_{\theta}J(\theta)=\frac{1}{2}(X\theta-Y)^{T}(X\theta-Y)+\lambda(\theta^{'})^{T}\theta^{'}, θ= [ θ 0 θ 1。。。θ N ] X= [ 1θ′=⎡⎣⎢⎢⎢θ1θ2...θn⎤⎦⎥⎥⎥θ′=[θ1θ2...θn]\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{matrix} \right]θ=⎡⎣⎢⎢⎢θ0θ1...θn⎤⎦⎥⎥⎥θ=[θ0θ1...θn]\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{matrix} \right]X=⎡⎣⎢⎢⎢⎢⎢11...1X(1)1X(2)1X(m)1X(1)2X(2)2X(m)2.........X(1)nX(2)nX(m)n⎤⎦⎥⎥⎥⎥⎥X=[1X1(1)X2(1)...Xn(1)1X1(2)X2(2)...Xn(2)...1X1(m)X2(m)...Xn(m)]X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ …

3
リッジ回帰とLASSOでは、
ベータ版を小さくした方がよい理由を直感的に理解できる人はいますか? LASSOの場合、私はそれを理解できます。ここに機能選択コンポーネントがあります。機能が少ないほどモデルが単純になるため、過剰適合しにくくなります。 ただし、尾根については、すべての機能(要素)が保持されます。値のみが小さくなります(L2ノルムの意味で)。これにより、モデルはどのように単純になりますか? 誰もがこれについて直感的な見解を提供できますか?

1
LASSO、リッジ、エラスティックネットで
について疑問に思う 最適なグリッドの細かさと グリッドの細かさとオーバーフィットの関係は LASSO、リッジ回帰、エラスティックネットなどの正則化手法では、 LASSOを使用した回帰モデルを500観測値のサンプルに適合させたいとします(データがありません。これは単なる例です)。私が持っていることも仮定 (A) 100と異なるグリッド間の範囲内の値λ mはiがNとλ M A X(B) 1000の異なる有するグリッドλの同じ範囲の値λは制御パラメータでありますペナルティの程度。λλ\lambdaλM I nはλmin\lambda_{min}λmは、Xがλmax\lambda_{max} λλ\lambdaλλ\lambda 質問: (A)対(B)でオーバーフィットする傾向について何か言えますか? 最適なグリッドの細かさを決定できますか?どうやって?

2
誰かがglmnetのfoldid引数が何をするか説明できますか?
関数で使用するアルファを決定しようとしglmnetていますが、ヘルプファイルに次のように記載されています。 cv.glmnetはアルファの値を検索しないことに注意してください。特定の値を指定する必要があります。指定しない場合、デフォルトでalpha = 1と見なされます。ユーザーがアルファも交差検証したい場合は、事前に計算されたベクトルfoldidを使用してcv.glmnetを呼び出し、次にこの同じフォールドベクトルを異なるアルファ値のcv.glmnetへの呼び出しで使用する必要があります。 しかし、私は理解していません: foldid vector / argumentとは何ですか。 foldidベクトルの作成方法 foldid引数の使用方法。 これでどんな援助でも大歓迎です!

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
多変量ガウス対数尤度の勾配
勾配降下法でモデルのMAP推定値を見つけようとしています。私の以前は、既知の共分散行列をもつ多変量ガウスです。 概念的なレベルでは、私はこれを行う方法を知っていると思いますが、詳細についていくつかの助けを求めていました。特に、問題に対処する簡単な方法がある場合、それは特に役立ちます。 ここでは、私が何だと思う私は実行する必要があります。 各次元について、他の次元での現在の位置を指定して、条件付き分布を見つけます。 これにより、正しい平均と標準偏差を使用して、各次元の局所的な一変量ガウス分布が得られます。 勾配は、これらの単変量分布のそれぞれの導関数のベクトルである必要があると思います。 私の質問には2つの部分があります。 これは最善のアプローチですか、それとももっと簡単な方法がありますか? このルートに行く必要があると仮定すると、これらの条件付き分布を見つけるための最良の方法は何ですか?

2
リッジのMATLABの実装に混乱
ridgeMATLAB には2つの異なる実装があります。1つは単に x=(A′A+Iλ)−1A′bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (ウィキペディアのリッジ回帰ページで見られるように)、とII\mathbf{I} サイズ列の単位行列であること(AA\mathbf{A}) ××\times 列(AA\mathbf{A})、および 私は単にMatlabの「尾根」を x = ridge(A, b, lambda) 私の問題は、どちらも異なる結果を返すことです。(1)必要な結果を返します(他の人と結果を比較することでわかります)が、(2)同じ結果が返されないのはなぜですか? 私のマトリックス AA\mathbf A疎で、1%1と99%0で埋められます。一部の列には1がほとんど含まれていません。最大の違いは、1が非常に少ない列の係数が(1)の0に非常に近いことですが、(2)の0からかなり離れている可能性があります なぜそれが違うのか、そして(2)の呼び出しを変更して(1)と同じ結果を出すにはどうすればいいですか?


2
リッジ回帰となげなわ回帰を使用する場合。線形回帰モデルではなくこれらの手法を使用して達成できること
RidgeやLassoの回帰のような正則化された回帰手法についてもっと学ぶのを楽しみにしています。線形回帰モデルと比較して、これらの手法を使用して何が達成できるか知りたいのですが。また、どのような状況でこれらの手法を採用する必要があります。そして、これら2つの手法の違いは何ですか。これらの手法の背後にある概念と数学を理解したいと思っています。あなたの貴重な知識を共有してください。

1
リッジ回帰となげなわ回帰
私は現在この問題に取り組んでおり、目標は、Ridge&Lasso回帰を使用して、8つの予測子でY(血圧)を予測する線形回帰モデルを開発することです。最初に、各予測子の重要性を調べます。以下はsummary()summary()summary() 私の多重線形回帰の age100age100age100 再スケーリングされた ageageage 他の予測子と同様のスケールになるようにします。 Call: lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + fra) Residuals: Min 1Q Median 3Q Max -80.120 -17.019 -0.648 18.158 117.420 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 145.605 9.460 15.392 < 2e-16 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.