タグ付けされた質問 「shrinkage」

モデルフィッティングプロセスに追加の制約を含める(通常は複雑さのペナルティ)。過剰適合の防止/予測精度の向上に使用されます。


5
収縮に関する統一された見解:スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係(ある場合)とは何ですか?
次の3つの現象を考慮してください。 スタインのパラドックス:R nの多変量正規分布からのデータがある場合、Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって(または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって)縮小すると、平均二乗誤差の低い推定値を得ることができます。 注意:通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnRn\mathbb R^nます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。 リッジ回帰:いくつかの従属変数所与のyy\mathbf yといくつかの独立変数XX\mathbf X、標準回帰β=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるββ\betaゼロに向かって:β=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y。 マルチレベル/混合モデルのランダム効果:いくつかのカテゴリ予測子(学校IDや学生の性別など)に依存する従属変数yyy(学生の身長など)が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。 私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか?それについての正しい直観は何ですか? さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。 リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります(例えば、統計学習の要素 3.4.1を参照)。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか?ββ\betaXX\mathbf X 更新:参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。ββ\beta サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか?実際に考えてみると、隆線の収縮が有益な1D(つまり、単純な非多重回帰)の状況を想像することはできません... 更新:いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。 一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関(直交)であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか?通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(X⊤X)−1(X⊤X)−1(\mathbf X^\top \mathbf X)^{-1} 更新:はい!上記と同じスレッドを参照してください。 多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合(または2つ以上の因子がある場合、混乱している場合)、常に因子をランダムとして扱うべきではありませんか? 更新:? …

5
収縮法はどのような問題を解決しますか?
ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。(頻度論)計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰(LAR)などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。 統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます(係数の大きさで測定)。言い換えれば、過剰適合です。 しかし、OLSは通常、公平で一貫した推定値を提供します。(脚注)選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました( ESLはこの後者の点に言及しています)。 偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。 繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか? 脚注:係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。

3
対角線に定数を追加することで、尾根の推定がOLSよりも良くなるのはなぜですか?
リッジ回帰推定値は、残差平方和とサイズのペナルティを最小化することを理解していますββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] ただし、X'Xの対角に小さな定数を追加するだけでは、βridgeβridge\beta_\text{ridge}が\ beta_ \ text {OLS}と異なるという事実の重要性を完全には理解していません。確かに、βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 私の本では、これにより推定が数値的により安定になると述べていますが、なぜですか? 数値安定性は、リッジ推定値の0方向への収縮に関連していますか、それとも単なる偶然ですか?

2
収縮が働くのはなぜですか?
モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

6
リッジ回帰は高次元()では役に立たないでしょうか?OLSはどのようにオーバーフィットに失敗しますか?
予測子とサンプルサイズ古き良き回帰問題を考えます。通常の知恵は、OLS推定器がオーバーフィットし、一般的にリッジ回帰推定器よりも優れていることです:クロス検証を使用して最適な正則化パラメーターを見つけるのが標準です。ここでは、10倍のCVを使用します。清澄化更新:とき、Iは"最小ノルムOLSの推定"を理解することによって与えられる"OLS推定量"によってpppβ = (X ⊤ X + λ I )- 1 X ⊤ Y 。λ N &lt; P β OLS = (X ⊤ X )+ X ⊤ Y = X + Y 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0は、最適なリッジ回帰と同等の性能を発揮します。λλ\lambda それはどのように可能であり、私のデータセットについて何と言っていますか?明白な何かを見逃していますか、それとも本当に直観に反していますか?両方がよりも大きいとすると、と間に質的な違いはありますか?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 最小ノルムOLSソリューションはどのような条件下でオーバーフィットしませんか?n&lt;pn&lt;pn<p 更新:コメントに不信感があったため、を使用した再現可能な例を次に示しglmnetます。私はPythonを使用しますが、Rユーザーはコードを簡単に変更できます。 %matplotlib notebook import numpy …

2
Rのlmで調整されたR-2乗式とは何ですか?
調整済みRの2乗のR で使用される正確な式は何lm() ですか?どうすれば解釈できますか? 調整されたr-2乗式 調整されたR-2乗を計算するためのいくつかの式が存在するようです。 ウェリーの式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} マクネマーの式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 主の公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} スタインの式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科書の説明 Fieldの教科書によると、Rを使用した統計の発見(2012、p。273)Rは、Wherryの方程式を使用します。彼は、Wherryの公式を示していません。彼は、Steinの式を(手で)使用して、モデルがどのように交差検証されるかを確認することを推奨します。 Kleiber / Zeileis、Applied Econometrics with R(2008、p。59)は、「Theilの調整済みR 2乗」であると主張し、その解釈が複数のR 2乗からどのように変化するかを正確に述べていません。 Dalgaard、Introductory Statistics with R(2008、p。113)は、「[調整されたRの2乗]を100%掛けると、「%分散の減少」と解釈できる」と書いています。彼は、これがどの式に対応するかについては述べていません。 私は以前、R乗がモデルに追加の変数を追加するとペナルティを与えると考え、広く読んでいました。現在、これらの異なる式の使用は、異なる解釈を必要とするようです。また、スタックオーバーフロー(単一変量最小二乗回帰における複数R 2乗と調整R 2乗の違いは何ですか?)、およびUPennにあるウォートンスクールの統計辞書に関する関連する質問も調べました。 ご質問 Rによって調整されたr平方に使用される式はどれ lm()ですか? どうすれば解釈できますか?

2
Lassoの前の標準化は本当に必要ですか?
Lasso回帰などの前に変数を標準化する3つの主な理由を読みました。 1)係数の解釈可能性。 2)収縮後の係数推定値の相対的な大きさにより、係数の重要度をランク付けする機能。 3)傍受の必要はありません。 しかし、私は最も重要な点について疑問に思っています。標準化によってモデルのサンプル外の一般化が改善されると考える理由はありますか?また、モデルにインターセプトが必要ないかどうかは気にしません。追加しても問題はありません。

1
glmnetがZou&Hastieのオリジナルペーパーの「素朴な」弾性ネットを使用するのはなぜですか?
β *=(1+λ2) β。L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. しかし、その後のglmnet論文Friedman、Hastie、&Tibshirani(2010)座標降下による一般化線形モデルの正則化パスは、この再スケーリングを使用せず、次のような簡単な脚注しかありませんでした。 Zou and Hastie(2005)は、このペナルティを単純なエラスティックネットと呼び、エラスティックネットと呼ばれる再スケーリングされたバージョンを好みました。ここでこの区別を削除します。 そこ(またはHastie et al。の教科書のいずれか)にはこれ以上の説明はありません。やや不可解です。著者は、それがあまりにもアドホックだと考えたため、再スケーリングを省いたのですか?さらなる実験でパフォーマンスが悪化したためですか?GLMケースに一般化する方法が明確ではなかったからですか?何も思いつきません。しかし、いずれにせよglmnetそれ以降、このパッケージは非常に人気を博したため、最近ではZou&Hastieからのリスケーリングを使用している人はいないようで、ほとんどの人はおそらくこの可能性に気付いていません。 質問:結局のところ、これは良いアイデアですか、悪いアイデアですか? でglmnetパラメータ化、再スケーリングゾウ&Hastieはする必要がありますβ^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.

2
「ダブル投げ縄」を行うか、投げ縄を2回実行する利点
元々の変数セット(S1など)で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法(ダブル投げ縄など)を聞いたことがあります。これに方法論的な用語はありますか?また、投げ縄を2回行う利点は何ですか?

3
相互作用用語を含むLASSO-主効果がゼロに縮小されても大丈夫ですか?
LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある(ゼロ以外)わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。 モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は 、この規則に従うモデル用語(例えば、後方または前方AICに基づいて)を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の(たとえば、相互検証された)モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。 上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。 この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか?


4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
James-Stein推定量が「収縮」推定量と呼ばれるのはなぜですか?
James-Stein推定量について読んでいます。このノートでは、次のように定義されています θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 私は証明を読みましたが、次の声明を理解していません: 幾何学的に、James–Stein推定量は、各成分を原点に向かって縮小します...XXX 「各成分を原点に向かって縮小する」とはどういう意味ですか?私はようなものを考え ていました。(p + 2)&lt;\ | X \ | ^ 2、 \ | \ hat {\ theta} \ | = \ frac {\ | X \ | ^ 2-(p + 2)} {\ | X \ | ^ 2} \ | X \ |。‖ θ …

2
ジェームズ・スタイン推定:どのようエフロンとモリス計算でした
ブラッドリー・エフロンとカール・モリスによる1977年のアメリカ科学論文「統計におけるスタインのパラドックス」で、ジェームズ・シュタイン収縮係数の計算について質問があります。 野球選手のデータを収集しましたが、以下に示します。 Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, 0.222, 0.226 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.