次の3つの現象を考慮してください。
スタインのパラドックス:R nの多変量正規分布からのデータがある場合、、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって(または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって)縮小すると、平均二乗誤差の低い推定値を得ることができます。
注意:通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。
リッジ回帰:いくつかの従属変数所与のといくつかの独立変数、標準回帰データをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるゼロに向かって:。
マルチレベル/混合モデルのランダム効果:いくつかのカテゴリ予測子(学校IDや学生の性別など)に依存する従属変数(学生の身長など)が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。
私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか?それについての正しい直観は何ですか?
さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。
リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります(例えば、統計学習の要素 3.4.1を参照)。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか?
更新:参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。
サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか?実際に考えてみると、隆線の収縮が有益な1D(つまり、単純な非多重回帰)の状況を想像することはできません...
更新:いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。
一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関(直交)であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか?通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。
更新:はい!上記と同じスレッドを参照してください。
多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合(または2つ以上の因子がある場合、混乱している場合)、常に因子をランダムとして扱うべきではありませんか?
更新:?
更新:いくつかの優れた回答が得られましたが、全体像を十分に提供できるものはないため、質問を「公開」します。既存の回答を上回る新しい回答に対して、少なくとも100ポイントの賞金を授与することを約束できます。私は主に、収縮の一般的な現象がこれらのさまざまなコンテキストでどのように現れるかを説明し、それらの間の主な違いを指摘できる統一されたビューを探しています。