タグ付けされた質問 「ridge-regression」

係数をゼロに向かって縮小する回帰モデルの正則化方法。

3
投げ縄とリッジを使用する必要があるのはいつですか?
多数のパラメーターを推定したいのですが、他のパラメーターと比較してほとんど効果がないはずだと思うので、いくつかのパラメーターにペナルティを科したいとします。使用するペナルティスキームを決定するにはどうすればよいですか?リッジ回帰はいつ適切ですか?投げ縄を使用する必要があるのはいつですか?



2
リッジ回帰が「リッジ」と呼ばれるのはなぜですか、なぜ必要なのですか。が無限になったときに何が起こるのでしょうか。
リッジ回帰係数の推定は、β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 私の質問は: 場合、上記の式は通常のRSSに還元されることがわかります。場合はどうなりますか?係数の振る舞いに関する教科書の説明がわかりません。λ → ∞λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 特定の用語の背後にある概念を理解しやすくするために、用語がRIDGE回帰と呼ばれるのはなぜですか?(なぜリッジ?)そして、リッジ回帰と呼ばれる新しい概念を導入する必要があるという通常/一般的な回帰で何が間違っていたのでしょうか? あなたの洞察は素晴らしいでしょう。

5
収縮に関する統一された見解:スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係(ある場合)とは何ですか?
次の3つの現象を考慮してください。 スタインのパラドックス:R nの多変量正規分布からのデータがある場合、Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって(または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって)縮小すると、平均二乗誤差の低い推定値を得ることができます。 注意:通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnRn\mathbb R^nます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。 リッジ回帰:いくつかの従属変数所与のyy\mathbf yといくつかの独立変数XX\mathbf X、標準回帰β=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるββ\betaゼロに向かって:β=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y。 マルチレベル/混合モデルのランダム効果:いくつかのカテゴリ予測子(学校IDや学生の性別など)に依存する従属変数yyy(学生の身長など)が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。 私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか?それについての正しい直観は何ですか? さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。 リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります(例えば、統計学習の要素 3.4.1を参照)。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか?ββ\betaXX\mathbf X 更新:参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。ββ\beta サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか?実際に考えてみると、隆線の収縮が有益な1D(つまり、単純な非多重回帰)の状況を想像することはできません... 更新:いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。 一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関(直交)であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか?通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(X⊤X)−1(X⊤X)−1(\mathbf X^\top \mathbf X)^{-1} 更新:はい!上記と同じスレッドを参照してください。 多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合(または2つ以上の因子がある場合、混乱している場合)、常に因子をランダムとして扱うべきではありませんか? 更新:? …

5
収縮法はどのような問題を解決しますか?
ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。(頻度論)計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰(LAR)などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。 統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます(係数の大きさで測定)。言い換えれば、過剰適合です。 しかし、OLSは通常、公平で一貫した推定値を提供します。(脚注)選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました( ESLはこの後者の点に言及しています)。 偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。 繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか? 脚注:係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。

3
対角線に定数を追加することで、尾根の推定がOLSよりも良くなるのはなぜですか?
リッジ回帰推定値は、残差平方和とサイズのペナルティを最小化することを理解していますββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] ただし、X'Xの対角に小さな定数を追加するだけでは、βridgeβridge\beta_\text{ridge}が\ beta_ \ text {OLS}と異なるという事実の重要性を完全には理解していません。確かに、βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 私の本では、これにより推定が数値的により安定になると述べていますが、なぜですか? 数値安定性は、リッジ推定値の0方向への収縮に関連していますか、それとも単なる偶然ですか?

2
収縮が働くのはなぜですか?
モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

6
リッジ回帰は高次元()では役に立たないでしょうか?OLSはどのようにオーバーフィットに失敗しますか?
予測子とサンプルサイズ古き良き回帰問題を考えます。通常の知恵は、OLS推定器がオーバーフィットし、一般的にリッジ回帰推定器よりも優れていることです:クロス検証を使用して最適な正則化パラメーターを見つけるのが標準です。ここでは、10倍のCVを使用します。清澄化更新:とき、Iは"最小ノルムOLSの推定"を理解することによって与えられる"OLS推定量"によってpppβ = (X ⊤ X + λ I )- 1 X ⊤ Y 。λ N &lt; P β OLS = (X ⊤ X )+ X ⊤ Y = X + Y 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0は、最適なリッジ回帰と同等の性能を発揮します。λλ\lambda それはどのように可能であり、私のデータセットについて何と言っていますか?明白な何かを見逃していますか、それとも本当に直観に反していますか?両方がよりも大きいとすると、と間に質的な違いはありますか?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 最小ノルムOLSソリューションはどのような条件下でオーバーフィットしませんか?n&lt;pn&lt;pn<p 更新:コメントに不信感があったため、を使用した再現可能な例を次に示しglmnetます。私はPythonを使用しますが、Rユーザーはコードを簡単に変更できます。 %matplotlib notebook import numpy …


2
予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか?
統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します(図6.9)。 なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません(例でMSEが大幅に低下するのはどうですか?)。 リッジでは、多くの予測子が応答にほとんど影響を与えない場合(少数の予測子が大きな効果を持つ場合)、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ?それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか?


1
ネストされた相互検証が本当に必要なのはいつで、実際に違いが出るのでしょうか
クロス検証を使用してモデルの選択(ハイパーパラメーター調整など)を行い、最適なモデルのパフォーマンスを評価する場合、ネストされたクロス検証を使用する必要があります。外側のループはモデルのパフォーマンスを評価することであり、内側のループは最適なモデルを選択することです。モデルは各外部トレーニングセットで選択され(内部CVループを使用)、そのパフォーマンスは対応する外部テストセットで測定されます。 これは多くのスレッドで議論され、説明されています(たとえば、ここでクロス検証後の完全なデータセットを使用したトレーニング?など、@ DikranMarsupialによる回答を参照)。モデル選択とパフォーマンス推定の両方に対して単純な(ネストされていない)交差検証のみを行うと、正にバイアスされたパフォーマンス推定が得られます。@DikranMarsupialには、まさにこのトピックに関する2010年の論文(モデル選択の過剰適合とパフォーマンス評価における後続の選択バイアス)があり、セクション4.3と呼ばれています。-そして、紙は答えがはいであることを示しています。 そうは言っても、私は現在、多変量多重リッジ回帰に取り組んでおり、単純なCVとネストされたCVの間に違いは見られません。私の質問は次のとおりです。単純なCVはどのような条件下で、ネストされたCVで回避される顕著なバイアスを生み出すのでしょうか。ネストされたCVは実際にはいつ重要であり、それほど重要ではありませんか?経験則はありますか? 以下は、実際のデータセットを使用した図です。横軸は、リッジ回帰のです。縦軸は交差検定エラーです。青い線は、単純な(ネストされていない)交差検証に対応しており、50のランダムな90:10トレーニング/テストの分割があります。赤い線は、50のランダムな90:10トレーニング/テストスプリットのネストされたクロス検証に対応します。は、内部クロス検証ループ(50のランダム90:10スプリット)で選択されます。線は50以上のランダムな分割を意味し、網掛けは標準偏差を示します。ログ(λ )log⁡(λ)\log(\lambda)λλ\lambda± 1±1\pm1 赤い線は平坦です。内側のループでが選択されており、外側のループのパフォーマンスがの全範囲にわたって測定されていないためです。単純な相互検証にバイアスがかかっている場合、青い曲線の最小値は赤い線より下になります。しかし、そうではありません。λλ\lambdaλλ\lambda 更新 実際はそうです:-)それは、違いが小さいということです。ズームインは次のとおりです。 ここで誤解を招く可能性のあることの1つは、エラーバー(網掛け)が巨大であるが、ネストされたCVと同じCVが同じトレーニング/テスト分割で実行できることです。コメントの@Dikranが示唆するように、それらの比較はペアになっています。ネストされたCVエラーと単純なCVエラーの違いを見てみましょう(私の青い曲線の最小値に対応するについて)。繰り返しますが、各フォールドで、これら2つのエラーは同じテストセットで計算されます。トレーニング/テストの分割でこの差をプロットすると、次の結果が得られます。λ = 0.002λ=0.002\lambda=0.002505050 ゼロは、内側のCVループもを生成する分割に対応します(ほぼ半分の時間で発生します)。平均して、差は正になる傾向があります。つまり、ネストされたCVのエラーはわずかに高くなります。言い換えれば、単純なCVは非常に小さいが楽観的なバイアスを示しています。λ = 0.002λ=0.002\lambda=0.002 (手順全体を数回実行しましたが、毎回発生します。) 私の質問は、どのような条件下でこのバイアスが非常に小さいと期待できるのか、どのような条件下ではいけないのかということです。

3
Lassoの収縮パラメータまたは50Kを超える変数を持つリッジ回帰を推定する方法は?
50,000個を超える変数を持つモデルにLassoまたはリッジ回帰を使用したい。Rのソフトウェアパッケージを使用してこれを行います。収縮パラメーター()を推定するにはどうすればよいですか?λλ\lambda 編集: ここに私が立ち上がったポイントがあります: set.seed (123) Y &lt;- runif (1000) Xv &lt;- sample(c(1,0), size= 1000*1000, replace = T) X &lt;- matrix(Xv, nrow = 1000, ncol = 1000) mydf &lt;- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 私の質問は次のとおりです。どのが私のモデルに最適であるかをどのように知ることができますか?λλ\lambda


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.