1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか?
する必要はありません。通常はそうです。トレードオフに価値があるかどうかは、損失関数に依存します。しかし、私たちが実際に気にすることは、二乗誤差に似ていることがよくあります(たとえば、サイズの半分の約2つの誤差よりも1つの大きな誤差のほうが重要です)。
反例として-大学の入学については、人口統計のSATの平均に向かって人々のSATスコアを少し縮小すると想像してみてください(ただし定義されています)。適切に行われた場合、これにより、バイアスを導入しながら、人の(ある種の)能力の推定値の分散と平均二乗誤差が減少します。ほとんどの人は、このようなトレードオフは受け入れられないと主張するでしょう。
2)常に機能するのはなぜですか?
3)0(原点)の何がそんなに面白いのですか?明らかに、好きな場所(つまり、Stein推定器)で縮小できますが、元のサイズと同じように機能しますか?
これは、通常、係数または効果推定値を縮小するためだと思います。ほとんどの効果は大きくないと信じる理由があります(Andrew Gelmanの見解を参照)。言い方をすれば、すべてが強い影響ですべてに影響を与える世界は、予測不可能な暴力的な世界です。私たちの世界は私たちが長生きして半安定文明を築くのに十分なほど予測可能であるため、ほとんどの影響は大きくないということです。
ほとんどのエフェクトは大きくないので、無視できるエフェクトの負荷を正しく縮小しながら、いくつかの本当に大きなエフェクトを誤って縮小すると便利です。
これは私たちの世界の単なる特性であり、おそらく収縮が実用的ではない自己矛盾のない世界を構築できると信じています(平均二乗誤差を非実用的な損失関数にすることによって)。私たちが住んでいる世界ではありません。
一方、収縮をベイズ分析の事前分布と考えると、実際に0への収縮が積極的に有害である場合があります。
1つの例は、Gaussian Processesの長さスケールです(0は問題あり)。Stanのマニュアルの推奨事項は、無視できる重みをゼロに近づける、つまりゼロから小さな値を効果的に「縮小」する事前分布を使用することです。同様に、負の二項分布の分散に推奨される事前分布は、ゼロから事実上縮小します。最後に重要なことですが、正規分布が(INLAのように)正確にパラメーター化される場合は常に、逆ガンマまたはゼロから縮小する他の事前分布を使用すると便利です。
4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか?
さて、これは私の深さのうちの方法ですが、ウィキペディアは、ユニバーサル符号化方式では、我々は(期待しているという定義によって)P(I )≥ P(i + 1 )すべての正のために私、このプロパティが定義の簡単な結果であると思わので、収縮とは関係ありません(または何か不足していますか?)