収縮に関する統一された見解:スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係(ある場合)とは何ですか?
次の3つの現象を考慮してください。 スタインのパラドックス:R nの多変量正規分布からのデータがある場合、Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって(または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって)縮小すると、平均二乗誤差の低い推定値を得ることができます。 注意:通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnRn\mathbb R^nます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。 リッジ回帰:いくつかの従属変数所与のyy\mathbf yといくつかの独立変数XX\mathbf X、標準回帰β=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるββ\betaゼロに向かって:β=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y。 マルチレベル/混合モデルのランダム効果:いくつかのカテゴリ予測子(学校IDや学生の性別など)に依存する従属変数yyy(学生の身長など)が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。 私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか?それについての正しい直観は何ですか? さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。 リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります(例えば、統計学習の要素 3.4.1を参照)。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか?ββ\betaXX\mathbf X 更新:参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。ββ\beta サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか?実際に考えてみると、隆線の収縮が有益な1D(つまり、単純な非多重回帰)の状況を想像することはできません... 更新:いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。 一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関(直交)であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか?通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(X⊤X)−1(X⊤X)−1(\mathbf X^\top \mathbf X)^{-1} 更新:はい!上記と同じスレッドを参照してください。 多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合(または2つ以上の因子がある場合、混乱している場合)、常に因子をランダムとして扱うべきではありませんか? 更新:? …