収縮に関する統一された見解:スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係(ある場合)とは何ですか?


64

次の3つの現象を考慮してください。

  1. スタインのパラドックス:R nの多変量正規分布からのデータがある場合Rn,n3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって(または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって)縮小すると、平均二乗誤差の低い推定値を得ることができます。

    注意:通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。

  2. リッジ回帰:いくつかの従属変数所与のyといくつかの独立変数X、標準回帰β=(XX)1Xyデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるβゼロに向かって:β=(XX+λI)1Xy

  3. マルチレベル/混合モデルのランダム効果:いくつかのカテゴリ予測子(学校IDや学生の性別など)に依存する従属変数y(学生の身長など)が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。

私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか?それについての正しい直観は何ですか?

さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。

  • リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります(例えば、統計学習の要素 3.4.1を参照)。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか?βX

    更新:参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。β

  • サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか?実際に考えてみると、隆線の収縮が有益な1D(つまり、単純な非多重回帰)の状況を想像することはできません...

    更新:いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください

  • 一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関(直交)であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか?通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(XX)1

    更新:はい!上記と同じスレッドを参照してください。

  • 多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合(または2つ以上の因子がある場合、混乱している場合)、常に因子をランダムとして扱うべきではありませんか?

    更新:


更新:いくつかの優れた回答が得られましたが、全体像を十分に提供できるものはないため、質問を「公開」します。既存の回答を上回る新しい回答に対して、少なくとも100ポイントの賞金を授与することを約束できます。私は主に、収縮の一般的な現象がこれらのさまざまなコンテキストでどのように現れるかを説明し、それらの間の主な違いを指摘できる統一されたビューを探しています。


私の理解では、リッジ回帰(およびLassoやエラスティックネットなどの従兄弟)は、回帰のすべての観測(学生の社会経済状態やGPAなど)で共有される相関変数の係数を縮小し、ランダム効果モデルは相互に排他的なレベルまたは相関する観測のグループ(学校のIDでグループ化された学生の学生の社会経済的ステータスなど)。
ロバートF 14年

3
統一的な答えを得るのに最適な場所は、キーワードBLUP(Best Linear Unbiased Predictorの場合)を見ることです。動物飼育の文献で。例えば、統計科学におけるロビンソンの調査を参照してください。またはマービン・グルーバーの本
西安

2
@ Xi'an:ありがとう、私はすでにGruberの本を自分で見つけており、ジェームズ・スタインとリッジ回帰の両方について彼が確かに議論しているにもかかわらず、私はすぐに2つの直接の比較を見つけませんでした(本全体を読むことは今のところ私には選択肢ではありません...)。ロビンソンの調査へのリンクをお寄せいただきありがとうございます。動物飼育!誰が考えただろうか。ところで、関連するスレッドに関するあなたのコメントを見ましたが、あなたが実際にここで満足のいく答えを提供できる人の一人かもしれないと思います!これは素晴らしいことです。これまでのところ、答えはありません。
アメーバは、モニカを復活させる14

2
@ Xi'an:さて、あなたの役に立つコメントは、ここからあなたからの答えを逃します。とにかく、Robinsonを読み始め、「Best Linear Unbiased Predictor」は偏りのある推定量であることに気付きました(明らかに、収縮を実装しているため)。なんて素敵な用語。
アメーバは2014

4
彼らは動物の育種の名人です。Casella&George 1992 "Gibbs for kids"が出版されるためにタイトルを変更しなければならなかった後、Wang&Gianolaは1993年に欧州動物生産会議で "Gibbs for pigs"の紹介を書きました!
西安14年

回答:


30

James–Stein推定量とリッジ回帰の関係

yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2James-Stein推定量の、および交差検定によるリッジ回帰のを決定します。λ

James–Stein推定量とランダム効果モデルの接続

最初に、遺伝学における混合/ランダム効果モデルについて説明します。モデルは 固定効果がなく、場合、モデルは これはJames-Stein推定量の設定に相当し、ベイジアンのアイデア。

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

ランダム効果モデルとリッジ回帰の間の接続

上記のランダム効果モデルに注目すると、 この推定は、問題 。証明は、パターン認識と機械学習の第3章にあります。

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

(マルチレベル)ランダム効果モデルと遺伝学モデル間の接続

上記のランダム効果モデルでは、次元はあり、の次元はです。をとしてベクトル化し、それに応じてを繰り返すと、階層構造/クラスター構造、クラスター、およびそれぞれユニットをます。我々は退縮した場合を繰り返す上、我々はランダム効果得ることができるに、それが一種の逆回帰等であるが、各クラスタのため。ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


謝辞:最初の3点は、主にこれら2件の中国記事、から学んだされている12


(+1)どうもありがとう!これは非常に役に立ちます。私はよく知っていてよく相談するBishopの教科書を間違いなく調べます。私はそこで混合モデルで何かを見つけることを期待していませんでしたが、セクション3.3「ベイジアン線形回帰」は実際にはそれについてであり、異なる用語を使用しているようです。知っておくといい!しかし、私の弾丸の質問に対するあなたの意見は何ですか?
アメーバは、モニカ

投稿の質問が多すぎます。:) 1)上記で回答したように、共変量がない場合、または単位行列だけの場合、James-Stein推定量とリッジ回帰は同等です。2,3,4)@Jamesが述べたように、予測子の数(上記の)は必ずしも応答次元と等しくありません。Xpm
ランデル14年

ところで、James-Stein推定器でサンプルの平均/平均が使用されているのがわかりません。実際には推定器を取り、それを縮小し。y0
ランデル14年

2
JS推定量とリッジ回帰は異なります。pベクトルの次元位置のリッジ回帰推定は、設計行列に対応し、推定欠けている、(非直線を!) JS-推定量の分母の用語pIp(1+λ)1Ipyy2
アンドリュー・M

3
それはすべて、リッジ推定と呼ばれるものに依存すると思います。初期のHoerl and Kennard(1970)の意味では、データに対するの依存性はまったくありません。Casellaの博士論文(1978)の後の意味では、手動決定は、残差平方和の関数に置き換えられます。λλ
西安14年

6

コミュニティがこの答えを具体化するための演習としてそれを省きますが、一般に、収縮推定量が有限サンプルで不偏推定量を支配する理由は、ベイズ推定量支配できないためです、また、多くの収縮推定量をベイズとして導出できます。1234

これらはすべて、決定理論の保護下にあります。網羅的ではあるがやや不愉快な参照は、Lehmann and Casellaによる「ポイント推定の理論」です。たぶん他の人がよりフレンドリーな参照でチャイムすることができますか?


1推定器のパラメータのデータ上のされて支配し、別の推定でのすべてのための場合はのリスク(例えば、平均二乗誤差)はであり、は少なくとも1つのでを打ちます。つまり、パラメーター空間のあらゆる場所でパフォーマンスが同等以上になります。δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2何らかの以前の下でデータが与えられた場合、推定値は、データが与えられた場合の事後予測である場合、ベイズ(とにかく二乗誤差損失の下)です例:、期待は後部で取得されます。当然、事前確率が異なると、サブセットごとにリスクが異なります。重要なおもちゃの例は、前の です。ポイント質量。そして、あなたはベイズ推定器は定数関数であることを示すことができるθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0、これはもちろんとその付近で非常に優れたパフォーマンスを、他の場所では非常に悪いパフォーマンスを示します。しかし、それでも、その推定量だけがでゼロリスクにつながるため、支配することはできません。θ0θ0

3当然の質問は、支配できない推定子(不屈ではないが容赦ないのではないが容認できると呼ばれる)がベイズを必要とするかどうかです。答えはほとんどです。「完全なクラス定理」を参照してください。

4たとえば、ノーマル(0、置くときリッジ回帰は、ベイズ手法として生じる)の前に、およびランダム効果モデルが同様の枠組みの中で経験的ベイズ手順として生じます。これらの引数は、ベイジアン許容可能性定理のバニラ版では、すべてのパラメーターに適切な事前配置が設定されていると仮定しているため、複雑です。リッジ回帰でも、それは真実ではありません。なぜなら、「優先」は分散に置かれるからです。1/λ2βσ2の誤差項は定数関数(ルベーグ測度)であり、適切な(積分可能な)確率分布ではありません。しかし、それでも、多くのこのような「部分的」ベイズ推定量は、適切なベイズである推定量のシーケンスの「制限」であることを示すことにより、許容できることが示されます。しかし、ここでの証明はかなり複雑で繊細になります。「一般化されたベイズ推定量」を参照してください。


1
本当にありがとう(+1)。あなたの答えがもっと詳細だったことを願うだけです...あなたの脚注(3)に関して:あなたは、すべてのベイズ推定量が以前のものとは無関係に、許容/不可解であると言っていますか?しかし、James-Stein推定量は経験ベイズから導出できます。なぜそれは受け入れられないのですか?また、たとえばリッジ回帰では、ゼロではなく、他の値の周りに事前に集中できることを意味します:、それでも合理的な正則化戦略?βN(β0,1/λ2)
アメーバは、モニカを復活させる14

2
James-Stein推定量が許容できない理由については、ここで答えを見つけることができます。Lehmann&Casella(1998)、Theory of Point Estimationにも詳細かつ興味深い議論があります。
ランデル14年

@Randel:はい、容認できないことを知っており、その推論を見て、James-Steinは経験的に理解できるので、すべてのベイズ推定量が許容されるというAndrewの声明にどのように適合するのか疑問に思っていますBayes
...-アメーバは、Reinstate Monicaを言う14

2
@Amoeba:はい、適切な事前推定値の下で後方にあるベイズ推定量は、許容可能な推定量につながります。経験的なベイズに関する限り、そのような手順は実際には真正なベイズではありません。なぜなら、事前にデータに依存することは病理につながる可能性があるからです。時には彼らは容認できると示されることもありますが、そうでないこともあります。典型的にはケースバイケースで仕事をしなければなりません。私は実際に古典的な線形混合モデルが許容できるかどうかわからないので、この点で少しわかりにくいように私の答えを編集しました!
アンドリューM 14年

3
本物の適切なベイズ推定量がミニマックスではないため、ジェームズ・スタイン推定量として機能することはめったにないことを指摘する必要があります。例えば、ビル・ストローマンは、1975年に、すべてを設定する通常の通常の平均問題に対して5未満の次元にミニマックス固有ベイズ推定量が存在しないことを示しました。
西安14年

2
  • James-Steinは、応答の次元が少なくとも3であると想定しています。標準的なリッジ回帰では、応答は1次元です。予測変数の数と応答ディメンションを混同しています。

  • そうは言っても、これらの状況には類似性がありますが、正確に何をすべきか、たとえば、因子を固定するかランダムにするか、適用する収縮の程度は、あるとしても、特定のデータセットに依存します。たとえば、予測変数の直交性が高いほど、標準回帰よりリッジ回帰を選択する意味が少なくなります。パラメータの数が多いほど、経験的ベイズを介してデータセット自体から事前分布を抽出し、それを使用してパラメータ推定値を縮小することは理にかなっています。信号対雑音比が高いほど、収縮などの利点は小さくなります。


答えてくれてありがとう。最初の箇条書きについて:しかし、リッジ回帰で縮小されているのは、予測子と同じ次元を持つです。β
アメーバは2014

1
OK、それから理論的には、MSEが推定され、ベータの分散共分散行列が任意である場合に拡張されたと仮定して、JSはより良く機能するはずです。その場合、JSはベータのポイント推定値を取得し、それをスケーリング係数で乗算するだけではありません。Ridge Regressionと同様に、ベータのさまざまなコンポーネントは異なって縮小されます。
ジェームズ14年

共分散行列に関する非常に良い点!これが私の最初の弾丸に(少なくとも直感的に)答えていると思います。β
アメーバは、モニカを復活させる14

2
@James:線形モデルは、サンプル()を次元の部分空間(設計行列がまたがる列)に射影することと考えることができます。観測が1つしかない場合にベクトルの標本平均を使用するのと同じです。Rnpn
アンドリューM 14年

2

他の人が言ったように、3つの関係は、以前の情報を測定に組み込む方法です。

  1. スタインのパラドックスの場合、入力変数間の真の相関はゼロでなければならないことがわかります(そして、無相関だけでなく独立性を暗示したいため、可能なすべての相関尺度)。したがって、単純な変数よりも優れた変数を構築できます平均をサンプリングし、さまざまな相関測定を抑制します。ベイジアンフレームワークでは、サンプル平均間の相関につながるイベントを文字通りダウンウェイトし、他の平均をアップするプリアーを構築できます。
  2. リッジ回帰の場合、条件付き期待値E(y | x)の適切な推定値を求めます。原理的には、これは無限次元の問題であり、測定の数が有限であるため、不明確です。ただし、事前の知識として、データをモデル化する連続関数を探しています。連続関数をモデル化する方法はまだ無限にあるため、これは未定義です。しかし、セットはやや小さくなります。リッジ回帰は、可能な連続関数を並べ替え、テストし、最終的な自由度で停止するための簡単な方法の1つです。解釈はVC次元の図です:リッジ回帰中に、与えられた自由度を持つaf(x、p1、p2 ...)モデルがデータに固有の不確実性をどの程度説明できるかを確認します。実際には、f(x、p1、p2 ... )および経験的P(p1、p2 ...)は、E(y | x)だけでなく、完全なP(y | x)分布を再構築できます。この方法では、特定の自由度の後に多くのパラメーターが意味するため、パラメーター間の相関が大きくなり、結果としてはるかに広いP(f(x、p1、p2) ..))分布。他の解釈は、元​​の損失関数も測定値であり、特定のサンプルの評価には不確実性が伴うため、実際のタスクは損失関数を最小化するのではなく、最小値を見つけることですその他(1つの自由度から他の自由度に実際に変更することはベイジアン決定であるため、損失関数が大幅に減少する場合にのみパラメーターの数を変更します)。リッジ回帰は、これらの2つの画像の近似値(CV次元、予想損失)として解釈できます。場合によっては、より高い自由度を好むことがあります。たとえば、粒子物理学では、生成された粒子の数がポアソン分布になると予想される粒子衝突を研究するため、画像(たとえば写真)指定された数のトラックを優先し、イメージのトラック番号の解釈がより小さいまたは高いモデルを抑制します。
  3. 3番目のケースは、事前情報を測定に実装しようとします。つまり、以前の測定から、たとえばコーシーではなくガウス分布によって生徒の身長を非常によくモデル化できることがわかっています。

要するに、答えは、何を期待し、データをいくつかの以前のデータ(以前の情報)に分類すれば、測定の不確実性を小さくできるということです。この以前のデータは、測定値の適合に使用するモデリング機能を制約するものです。単純な場合、モデルをベイジアンフレームワークに書き留めることができますが、可能な連続関数をすべて統合してベイジアン最大A事後値を持つ関数を見つける場合など、非現実的です。


2

James Stein推定量とリッジ回帰

検討する

y=Xβ+ϵ

ϵN(0,σ2I)

最小二乗解の形式は

β^=S1Xy ここで。S=XX

β^のために公平である及びcovrianceマトリックス有し。したがって、私たちは書くことができますβσ2S1

β^N(β,σ2S1)は最尤推定値MLEである ことに注意してください。β^

ジェームス・スタイン

Jame Steinを簡単にするために、と仮定します。ジェームズとスタインはに次の形式の事前を追加しますS=Iβ

βN(0,aI)

フォームの事後取得します 、彼ら次に、でを 推定し、次の形式のJames Stein推定量を取得します。aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

リッジ回帰

リッジ回帰では、通常、は標準化されており(平均0、各列のバランス1 )、回帰パラメーターは同等です。これがに対して場合。XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

リッジ回帰推定値、と定義されであることを、βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^がMLEであることに注意してください。β^

はどのように導出されましたか?想起β^(λ)

β^N(β^,σ2S1)およびベイジアン事前分布を追加する場合

βN(0,σ2λI)

それから

E(β|β^)=(S+λI)1Sβ^

リッジ回帰推定と同じです。したがって、ここで指定されたJames Steinの元の形式は、および取ります。β^(λ)S=Ia=σ2λ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.