スタインのパラドックスが次元のみ適用される理由の背後にある直観
スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください: Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ:nnn次元空間(n≥3n≥3n\ge 3)のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか?可能な答えは、nnn球の曲率、またはまったく異なるものです。 つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか? 編集1: @mpiktasへの応答では、1.30から1.31に続く懸念: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2:この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。