タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

1
なげなわ、リッジ、またはエラスティックネットソリューションのパスが単調になる条件の明確なセットはありますか?
このなげなわプロット(glmnet)の結論は、単調ではないなげなわ推定器の解の経路を示しています。つまり、係数の一部は、縮小する前に絶対値が増加します。 私は、データセットのいくつかの種類にこれらのモデルを適用し、決してこの動作を見て「野生では、」今日は、彼らがいたことを想定していたまできましたいつも単調。 ソリューションパスが単調であることが保証される条件の明確なセットはありますか?パスの方向が変わると、結果の解釈に影響しますか?

3
リッジ回帰を使用するときに係数標準誤差を推定するにはどうすればよいですか?
非常に多重共線性のデータでリッジ回帰を使用しています。OLSを使用すると、多重共線性のために係数に大きな標準誤差が生じます。私はリッジ回帰がこの問題に対処する方法であることを知っていますが、私が見たリッジ回帰のすべての実装では、係数について報告された標準エラーはありません。特定の係数の標準誤差がどれだけ減少するかを見ることで、リッジ回帰がどれだけ役立つかを推定する何らかの方法が欲しいです。リッジ回帰でそれらを推定する方法はありますか?

1
プライマル、デュアル、カーネルリッジ回帰の違い
Primal、Dual、およびKernel Ridge回帰の違いは何ですか?人々は3つすべてを使用していますが、異なるソースで誰もが使用する表記法が異なるため、私が従うことは困難です。 だから誰かが簡単な言葉でこれら3つの違いを教えてもらえますか?さらに、それぞれの長所または短所は何ですか?また、その複雑さは何ですか?

3
統計的推論を行うときに正則化を使用する
予測モデルを構築するときの正則化の利点(バイアスと分散、過剰適合の防止)について知っています。しかし、回帰モデルの主な目的が係数の推論であるときに正則化(投げ縄、リッジ、エラスティックネット)を行うことも良い考えかと思います(統計的に重要な予測子を参照)。私は、人々の考えや、これを扱っている学術雑誌や非学術記事へのリンクを聞きたいです。

2
ベイジアンの観点から見たLASSOとリッジ:チューニングパラメーターはどうですか?
LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。(ベイジアン統計については十分に知らないので)チューニングパラメーターが固定されている場合、具体的な対応する事前分布が存在すると推測します。 これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか?または、ベイジアンのアプローチは、データを見る前に調整パラメーターを効果的に修正しますか?(後者は予測パフォーマンスに有害だと思います。)

3
リッジ回帰の実装:
私はPython / CモジュールでRidge Regressionを実装していますが、この「小さな」問題に遭遇しました。考え方は、「統計学習の要素」の65ページのプロットのように、ほぼ等間隔の有効自由度をサンプリングすることです。つまり、サンプル: df(λ)=∑i=1pd2id2i+λ,df(λ)=∑i=1pdi2di2+λ,\mathrm{df}(\lambda)=\sum_{i=1}^{p}\frac{d_i^2}{d_i^2+\lambda},d2idi2d_i^2XTXXTXX^TXdf(λmax)≈0df(λmax)≈0\mathrm{df}(\lambda_{\max})\approx 0df(λmin)=pdf(λmin)=p\mathrm{df}(\lambda_{\min})=pλmax=∑pid2i/cλmax=∑ipdi2/c\lambda_{\max}=\sum_i^p d_i^2/cλmax≫d2iλmax≫di2\lambda_{\max} \gg d_i^2cccc=0.1c=0.1c=0.1λmin=0λmin=0\lambda_{\min}=0 タイトルが示唆するように、その後、Iはサンプルに必要λλ\lambdaからのλminλmin\lambda_{\min}にλmaxλmax\lambda_{\max}ように、いくつかのスケールでdf(λ)df(λ)\mathrm{df}(\lambda)に、たとえば、(約)サンプリングされますcからpまでの0.10.10.1間隔...これを行う簡単な方法はありますか?ニュートン・ラプソン法を使用して、各\ lambdaの方程式\ mathrm {df}(\ lambda)を解くことを考えましたが、これは、特にpが大きい場合に繰り返しを追加しすぎます。助言がありますか?cccpppdf(λ)df(λ)\mathrm{df}(\lambda)λλ\lambdappp

2
リッジ回帰分類器がテキスト分類で非常にうまく機能するのはなぜですか?
テキスト分類の実験中に、SVM、NB、kNNなどのテキストマイニングタスクに一般的に言及され、適用されている分類子の中で常にテストを上回る結果を生成するリッジ分類子を発見しました。パラメータに関するいくつかの簡単な調整を除き、この特定のテキスト分類タスクで各分類子を最適化する。 そのような結果はディクラン・マースピアルにも言及されました。 統計の背景から来ていない、オンラインでいくつかの資料を読んだ後、私はまだこれの主な理由を理解することはできません。誰でもそのような結果についての洞察を提供できますか?

1
リッジ回帰の反転:与えられた応答行列と回帰係数、適切な予測子を見つける
標準的なOLS回帰問題:行列\ Yと\ Xがあり、L = \ | \ Y- \ X \ B \ | ^ 2を最小化するために\ Bを見つけたいです。 解は\ hat \ B = \ argmin_ \ B \ {L \} =(\ X ^ \ top \ X)^ + \ X ^ \ top \ Yで与えられます。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …

2
なぜリッジ回帰は、なげなわのようにいくつかの係数をゼロに縮小しないのですか?
LASSO回帰を説明するとき、ひし形と円の図がよく使用されます。LASSOの制約の形状はダイアモンドであるため、得られた最小二乗解がダイアモンドの角に接触し、何らかの変数の収縮につながる可能性があると言われています。ただし、リッジ回帰では、円であるため、多くの場合、軸に接触しません。なぜ軸に触れないのか、または特定のパラメーターを縮小する可能性がLASSOより低い可能性があるのか​​理解できませんでした。それに加えて、なぜLASSOとリッジの分散が通常の最小二乗よりも小さいのですか?上記はリッジとLASSOに対する私の理解であり、間違っているかもしれません。これら2つの回帰方法の分散が低い理由を理解してくれる人はいますか?

1
リッジ回帰は、どのような条件下で通常の最小二乗回帰よりも改善できますか?
リッジ回帰は、線形モデルのパラメーター推定します byここで\ lambdaは正則化パラメーターです。多くの相関予測子がある場合、OLS回帰(\ lambda = 0を使用)よりもパフォーマンスがよく向上することがよく知られています。Y = X β β λ = (X ⊤ X + λ I )- 1 X ⊤ Y、λ λ = 0ββ\boldsymbol \betay=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \betaβ^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,λλ\lambdaλ=0λ=0\lambda=0 リッジ回帰の存在定理によれば、パラメーター\ lambda ^ …

2
機能が関連付けられている場合、LassoまたはElasticNetがRidgeよりも優れている理由
150個の機能のセットがあり、それらの多くは互いに高度に相関しています。私の目標は、範囲が1〜8の離散変数の値を予測することです。サンプルサイズは550で、10倍の交差検定を使用しています。 知る限りでは、正則化方法(Lasso、ElasticNet、Ridge)の中で、Ridgeは機能間の相関がより厳密です。そのため、Ridgeを使用すると、より正確な予測が得られると予想していました。ただし、私の結果は、LassoまたはElasticの平均絶対誤差が約0.61であるのに対し、このスコアはリッジ回帰では0.97であることを示しています。これの説明は何だろうか。これは私が多くの機能を持っているからであり、Lassoは冗長な機能を取り除いて一種の機能選択を行うため、パフォーマンスが向上しますか?

1
ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか?
なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか?それは(0 、1 )?λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

2
収縮が実際に機能するのはなぜですか、0の特別な点は何ですか?
同じ問題について話しているこのサイトにはすでに投稿があります: なぜ収縮が機能するのですか? しかし、答えは人気がありますが、質問の要旨が本当に扱われているとは思いません。推定にバイアスを導入すると、分散が減少し、推定の品質が向上する可能性があることは明らかです。しかしながら: 1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか? 2)常に機能するのはなぜですか?たとえば、リッジ回帰の場合:存在定理 3)0(原点)の何がそんなに面白いのですか?明らかに私たちは好きな場所(つまりStein estimator)で縮小できますが、それは起源と同じくらいうまく機能するのでしょうか? 4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか? 実証済みの定理または確立された結果への参照を含む回答が期待されます。

1
ARIMAモデルの正則化
LASSO、リッジ、および線形回帰モデルの正則化のElastic-Netタイプを認識しています。 質問: この(または同様の)罰則付き推定をARIMAモデリングに適用できますか(空でないMAパーツを使用)。 pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 私のさらなる質問は次のとおりです。 (、)までのすべての項を含めることができますが、係数のサイズにペナルティを科せますか(潜在的にゼロまで)。それは理にかなっていますか?pmaxpmaxp_{max}qmaxqmaxq_{max} もしそうなら、それはRまたは他のソフトウェアに実装されていますか?そうでない場合、問題は何でしたか? やや関連する投稿はこちらにあります。

1
設定での回帰:正則化方法(ラッソ、PLS、PCR、リッジ)の選択方法
私はのために行くかどうかを確認しようとしているリッジ回帰、LASSO、主成分回帰(PCR)、または部分最小二乗変数/機能(の数が多い状況で(PLS))およびサンプルの数が少ない(N < p)、私の目的は予測です。pppn<pn<pn np>10np>10np>10n 変数(およびY)は、異なる程度で互いに相関しています。XXXYYY 私の質問は、この状況に最適な戦略はどれですか?どうして?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.