統計とビッグデータ steins-phenomenon

5

収縮に関する統一された見解：スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係（ある場合）とは何ですか？

次の3つの現象を考慮してください。スタインのパラドックス：R nの多変量正規分布からのデータがある場合、Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって（または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって）縮小すると、平均二乗誤差の低い推定値を得ることができます。注意：通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnRn\mathbb R^nます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。リッジ回帰：いくつかの従属変数所与のyy\mathbf yといくつかの独立変数XX\mathbf X、標準回帰β=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるββ\betaゼロに向かって：β=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y。マルチレベル/混合モデルのランダム効果：いくつかのカテゴリ予測子（学校IDや学生の性別など）に依存する従属変数yyy（学生の身長など）が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか？それについての正しい直観は何ですか？さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります（例えば、統計学習の要素 3.4.1を参照）。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか？ββ\betaXX\mathbf X 更新：参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。ββ\beta サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか？実際に考えてみると、隆線の収縮が有益な1D（つまり、単純な非多重回帰）の状況を想像することはできません... 更新：いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関（直交）であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか？通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(X⊤X)−1(X⊤X)−1(\mathbf X^\top \mathbf X)^{-1} 更新：はい！上記と同じスレッドを参照してください。多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合（または2つ以上の因子がある場合、混乱している場合）、常に因子をランダムとして扱うべきではありませんか？更新：？ …

64 regression mixed-model ridge-regression shrinkage steins-phenomenon

2

スタインのパラドックスが次元のみ適用される理由の背後にある直観

スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています（平方損失関数の下）。きちんとした証拠については、大規模推論の最初の章を参照してください： Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは（これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています）。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ：nnn次元空間（n≥3n≥3n\ge 3）のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか？可能な答えは、nnn球の曲率、またはまったく異なるものです。つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか？編集1： @mpiktasへの応答では、1.30から1.31に続く懸念： Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2：この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。

46 maximum-likelihood unbiased-estimator intuition steins-phenomenon

1

スタインのパラドックスは、ノルムの代わりにノルムを使用する場合でもですか？

スタインのパラドックスは、3つ以上のパラメーターを同時に推定すると、パラメーターを個別に処理する方法よりも平均的に正確な（つまり、予想平均二乗誤差が低い）結合推定器が存在することを示しています。これは非常に直感に反する結果です。ノルム（予想平均二乗誤差）を使用する、ノルム（予想平均絶対誤差）を使用すると、同じ結果が得られますか？l2l2l_2l1l1l_1

20 paradox steins-phenomenon

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

James-Stein推定量が「収縮」推定量と呼ばれるのはなぜですか？

James-Stein推定量について読んでいます。このノートでは、次のように定義されています θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 私は証明を読みましたが、次の声明を理解していません：幾何学的に、James–Stein推定量は、各成分を原点に向かって縮小します...XXX 「各成分を原点に向かって縮小する」とはどういう意味ですか？私はようなものを考えていました。（p + 2）<\ | X \ | ^ 2、 \ | \ hat {\ theta} \ | = \ frac {\ | X \ | ^ 2-（p + 2）} {\ | X \ | ^ 2} \ | X \ |。‖ θ …

19 estimation terminology shrinkage steins-phenomenon

2

ジェームズ・スタイン推定：どのようエフロンとモリス計算でした

ブラッドリー・エフロンとカール・モリスによる1977年のアメリカ科学論文「統計におけるスタインのパラドックス」で、ジェームズ・シュタイン収縮係数の計算について質問があります。野球選手のデータを収集しましたが、以下に示します。 Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, 0.222, 0.226 …

18 estimation shrinkage steins-phenomenon

5

「野生の」ジェームズ・シュタインの収縮？

James-Stein収縮の概念にとらわれます（つまり、独立した法線のベクトルの単一の観測の非線形関数は、「より良い」が二乗誤差で測定されるランダム変数の平均のより良い推定量になります））。しかし、私はそれを応用研究で見たことがない。明らかに私は十分に読まれていません。James-Steinが適用された設定で推定を改善した典型的な例はありますか？そうでない場合、この種の収縮は単なる知的好奇心ですか？

15 estimation error shrinkage application steins-phenomenon

1

経験的ベイズとランダム効果の間には関係がありますか？

私は最近、経験的ベイズについて偶然読んで（Casella、1985、経験的ベイズデータ分析の紹介）、ランダム効果モデルによく似ていました。両方ともグローバル平均に縮小した推定値を持っているという点で。しかし、私はそれを完全に読んでいません... 誰もがそれらの類似点と相違点について何か洞察を持っていますか？

12 bayesian estimation random-effects-model steins-phenomenon empirical-bayes

1

不等分散のJames-Stein Estimator

James-Stein推定量について私が見つけたすべてのステートメントは、推定されている確率変数が同じ（および単位）分散を持っていると想定しています。しかし、これらの例はすべて、JS推定器を使用して、互いに何の関係もなく数量を推定できることにも言及しています。ウィキペディアの例は、モンタナの光、台湾のお茶の消費量、および豚の体重の速度です。しかし、おそらくこれらの3つの量の測定値には、異なる「真の」分散があります。これは問題を引き起こしますか？：この質問に関連し、私は理解していないという大きな概念問題にこのネクタイ、ジェームズ・スタイン推定：どのようエフロンとモリス計算でした彼らの野球例えば収縮率で？σ2σ2\sigma^2収縮率は次のように計算します。ccc c=1−(k−3)σ2∑(y−y¯)2c=1−(k−3)σ2∑(y−y¯)2 c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} 直感的に、私は、と思うだろう項は、実際にあるσ 2 Iと推定されている各数量ごとに異なります- 。しかし、その質問の議論はプールされた分散の使用についてのみ話します...σ2σ2\sigma^2σ2iσi2\sigma^2_i 誰かこの混乱を解消していただければ幸いです。

11 estimation shrinkage steins-phenomenon

タグ付けされた質問 「steins-phenomenon」

タグ付けされた質問「steins-phenomenon」