スタインのパラドックスが次元のみ適用される理由の背後にある直観


46

スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法μ 1... μ nは 1 のn 3nμ1,,μn1n3

、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。xN(μ,1)Ex2μ2+n

私の質問はむしろ:n次元空間(n3)のどの特性がR2欠けており、それがSteinの例を容易にしているのか?可能な答えは、n球の曲率、またはまったく異なるものです。

つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2ですか?


編集1: @mpiktasへの応答では、1.30から1.31に続く懸念:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
よう
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
したがって、次のものがあります。

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

編集2この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2ます。


4
@mpiktas見た目ほど適切ではありません。十分な削減を適用した後の状況は、ANOVAに似ています。これは、3つ以上のグループの平均を推定しようとしている場合、グループ平均の通常のANOVA推定は受け入れられないことを示唆しています(これは事実です)。MLEがに対して許容可能であることを証明し、に拡張しようとすると失敗する場所を確認することをお勧めします。あなたは実際に推定器を念頭に置いています。N=1,2N=3

2
...そしてスタインの補題を使うことを知っています。6分前とはいえ、実際には私よりも少しまっすぐではありません。

2
同意する。そのための良い参考資料はありますか(元の論文を除く)。Steinの元の論文が過度に計算されていることを発見し、過去50年間で誰かが別の方法を開発することを望んでいました。
ハー

2
私が教えられた証拠は、1950年代初期のブライスが示唆した方法を使用する1983年のブラウンとファンのそれでした。それはかなり一般的であり(指数関数的ファミリーで機能するという点でスタインの結果よりもより一般的です)、そして私はスタインとは全く異なると信じています。しかし、それは簡単なことではありません。

2
@素晴らしい質問!(+1)
suncoolsu

回答:


43

次元の多変量正規確率変数の平均のMLEの許容性について、と間の二分法は確かに衝撃的です。d<3d3d

とケースの間で二分する確率と統計の別の非常に有名な例があります。これは、格子上の単純なランダムウォークの繰り返しです。つまり、次元の単純なランダムウォークは1次元または2次元では再帰的ですが、次元では一時的です。(ブラウン運動の形の)連続時間アナログも成り立ちます。d<3d3Zddd3

2つは密接に関連していることがわかります。

Larry Brownは、2つの質問が本質的に同等であることを証明しました。つまり、次元のブラウン運動が再帰的である場合に限り、次元の多変量正規平均ベクトルの最良の不変推定量が許容されます。μ^μ^(X)=Xdd

実際、彼の結果はさらに大きくなります。以下のための任意の賢明な(すなわち、一般化ベイズ)推定との有界(一般)リスクは、明示的に存在する(!)は、対応する次元拡散よう推定器は、対応する拡散が再帰的である場合にのみ許容されます。μ~μ~(X)L2dμ~

この拡散の局所平均は、本質的に2つの推定量、つまりの不一致であり、拡散の共分散はです。このことから、MLE場合、ブラウン運動を復元(再スケーリング)することが簡単にわかります。μ~μ^2Iμ~=μ^=X

したがって、ある意味で、確率過程のレンズを通して許容性の問題を見て、拡散のよく研究された特性を使用して、望ましい結論に到達することができます。

参照資料

  1. L.ブラウン(1971)。許容可能な推定量、繰り返し拡散、および不溶性の境界値の問題アン。数学。統計 、vol。42、いいえ。3、pp。855–903。
  2. RN Bhattacharya(1978)。多次元拡散に対する不変測度の再発と存在の基準アン。確率 、vol。6、いいえ。4、541〜553。

2
実際、このようなことは私が望んでいたことです。許容性が単なるまぐれではなかったことを示す数学の別の分野(微分幾何学または確率過程)に接続します。素晴らしい答えです!n=2
ハー

あなたの答えに触発され、私はいくつかの詳細を提供し、また、MO上でこの問題に対応して幾何学的な説明を追加します。mathoverflow.net/questions/93745/...
Henry.L

21

@cardinalはすばらしい回答(+1)を出しましたが、証拠に精通していない限り(そして私も知らない)、問題全体は謎のままです。したがって、Steinのパラドックスがおよび現れない直観的な理由については疑問が残ると思います。RR2

スティーブンスティグラー、1990年、収縮推定量に関するガルトニアンの視点で提供されている回帰の観点が非常に役立つと思います。独立した測定値検討します。各測定値は、基礎となる(観測されていない)を測定し、からサンプリングします。どういうわけか知っていれば、ペアの散布図を作成できます。XiθiN(θi,1)θi(Xi,θi)

スタインのパラドックス:回帰の視点

対角線は、ゼロノイズと完全推定に対応します。実際にはノイズはゼロではないため、ポイントは対角線から水平方向にずれています。Correspondinly、の回帰直線として見ることができる上の。ただし、を知っているのでを推定したいので、上の回帰線を考慮する必要があります- 図に示すように、水平方向バイアスされた異なる勾配を持ちます(破線)。θ=Xθ=XXθXθθX

スティグラーの論文からの引用:

スタインのパラドックスに関するこのガルトニアンの視点は、それをほぼ透明にします。「通常の」は、上の理論回帰線から導出されます。目的がからを予測することである場合、その行は役立ちますが、問題は逆です。つまり、平方誤差のを使用してからを予測することです基準。その基準に対して、最適な線形推定量は、上の最小二乗回帰線によって与えられます。θ^i0=XiXθXθθX(θiθ^i)2θX、およびJames-SteinおよびEfron-Morrisの推定量は、それ自体が最適な線形推定量の推定量です。「通常の」推定量は間違った回帰線から導き出され、ジェームズ・スタインおよびエフロン・モリス推定量は右回帰線への近似から導き出されます。

そして今、重要な部分があります(強調が追加されました):

が必要な理由もわかりますまたは場合、上の最小二乗線は点通過する必要があるため、または場合、 2つの回帰線(上のおよび上の)は、各一致する必要があります。k3k=12θX(Xi,θi)k=12XθθXXi

これにより、および特別な点が非常に明確になると思います。k=1k=2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.