収縮が実際に機能するのはなぜですか、0の特別な点は何ですか?


15

同じ問題について話しているこのサイトにはすでに投稿があります: なぜ収縮が機能するのですか?

しかし、答えは人気がありますが、質問の要旨が本当に扱われているとは思いません。推定にバイアスを導入すると、分散が減少し、推定の品質が向上する可能性があることは明らかです。しかしながら:

1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか?

2)常に機能するのはなぜですか?たとえば、リッジ回帰の場合:存在定理

3)0(原点)の何がそんなに面白いのですか?明らかに私たちは好きな場所(つまりStein estimator)で縮小できますが、それは起源と同じくらいうまく機能するのでしょうか?

4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか?

実証済みの定理または確立された結果への参照を含む回答が期待されます。


@KarolisKoncevičius、リンクを修正してくれてありがとう!ただし、最後の編集を除き、言語の編集はあまり役に立たない可能性があることに注意してください。他のものは、冗長なテキストを追加しているため、投稿を少し読みにくくしているようです。
リチャードハーディ

1
3)「起源について何がそんなに面白いの?」この声明をどのように理解していますか?グループファクター(国など)と個々のファクター(市など)がある場合、収縮により国レベルに平均が付けられ、十分なデータを持つ都市レベルの偏差のみに係数が設定されます)-つまり、モデルはグループレベルにプッシュされます(国)平均(都市レベルの係数をゼロにする)...そして階層(および複数の階層)のより多くのレベルでも同様に
seanv507

回答:


6

1)バイアスを導入することによるダメージが分散ゲインと比較して少ないのはなぜですか?

する必要はありません。通常はそうです。トレードオフに価値があるかどうかは、損失関数に依存します。しかし、私たちが実際に気にすることは、二乗誤差に似ていることがよくあります(たとえば、サイズの半分の約2つの誤差よりも1つの大きな誤差のほうが重要です)。

反例として-大学の入学については、人口統計のSATの平均に向かって人々のSATスコアを少し縮小すると想像してみてください(ただし定義されています)。適切に行われた場合、これにより、バイアスを導入しながら、人の(ある種の)能力の推定値の分散と平均二乗誤差が減少します。ほとんどの人は、このようなトレードオフは受け入れられないと主張するでしょう。

2)常に機能するのはなぜですか?

3)0(原点)の何がそんなに面白いのですか?明らかに、好きな場所(つまり、Stein推定器)で縮小できますが、元のサイズと同じように機能しますか?

これは、通常、係数または効果推定値を縮小するためだと思います。ほとんどの効果は大きくないと信じる理由があります(Andrew Gelmanの見解を参照)。言い方をすれば、すべてが強い影響ですべてに影響を与える世界は、予測不可能な暴力的な世界です。私たちの世界は私たちが長生きして半安定文明を築くのに十分なほど予測可能であるため、ほとんどの影響は大きくないということです。

ほとんどのエフェクトは大きくないので、無視できるエフェクトの負荷を正しく縮小しながら、いくつかの本当に大きなエフェクトを誤って縮小すると便利です。

これは私たちの世界の単なる特性であり、おそらく収縮が実用的ではない自己矛盾のない世界を構築できると信じています(平均二乗誤差を非実用的な損失関数にすることによって)。私たちが住んでいる世界ではありません。

一方、収縮をベイズ分析の事前分布と考えると、実際に0への収縮が積極的に有害である場合があります。

1つの例は、Gaussian Processesの長さスケールです(0は問題あり)。Stanのマニュアルの推奨事項は、無視できる重みをゼロに近づける、つまりゼロから小さな値を効果的に「縮小」する事前分布を使用することです。同様に、負の二項分布の分散に推奨される事前分布は、ゼロから事実上縮小します。最後に重要なことですが、正規分布が(INLAのように)正確にパラメーター化される場合は常に、逆ガンマまたはゼロから縮小する他の事前分布を使用すると便利です。

4)さまざまなユニバーサルコーディングスキームが、原点周辺のビット数を減らすことを好むのはなぜですか?これらの仮説は単により可能性が高いのでしょうか?

さて、これは私の深さのうちの方法ですが、ウィキペディアは、ユニバーサル符号化方式では、我々は(期待しているという定義によってPP+1すべての正のために、このプロパティが定義の簡単な結果であると思わので、収縮とは関係ありません(または何か不足していますか?)


1
1)への答えは実際には良いです!
デビッド

明らかにAndrew Gelmanは、入力に係数を掛ける標準モデルを念頭に置いていました。これは必ずしもそうである必要はありません。係数が逆にモデルに入ってくるとどうなりますか?その後、0は物事を爆破します。
カグダスオズゲンク

1
@CowboyTraderはい。0に問題があり、縮小する(答えに追加される)実際のユースケースがあります。したがって、ゼロへの収縮は、実際に頻繁に機能するヒューリスティックであり、基本的な数学的真実ではないという点をわずかに裏付けていると思います。
マルティンモドラーク

1
最初の反応で申し訳ありません。あなたの答えはより有意義になっています。収縮は、二乗損失だけでなく、他の損失関数でも機能することに注意してください。私が追っている本当の問題は、なぜそれが常に機能するのかということです。平均/位置パラメータの場合、0はマジックナンバーのようです。
カグダスオズゲンク

σ

0

Ridge、なげなわ、およびエラスティックネットは、事前分布がゼロを中心とするベイズの手法に似ています-たとえば、Hastie、Tibshirani、およびWainwrightによる統計的学習とスパース性のセクションを参照して2.9 Lq Penalties and Bayes Estimatesください。これは、なげなわ推定がラプラシアン事前分布を使用したベイジアンMAP(最大事後)推定量であることを意味します。

質問に答える1つの方法(what's so special about zero?)は、推定する効果が平均でゼロであり、小さい傾向があることです(つまり、事前分布ゼロを中心とする必要があります)。推定値をゼロに向かって縮小することは、ベイジアンの意味で最適であり、投げ縄、隆起、弾性ネットはそのレンズを通して考えることができます。


3
ゼロに縮小することは特別なことではありません(結果に特定の係数を掛けるだけなので、方程式が単純になることを除きます)。他のポイントに縮小することもできます。そのポイントが真の値から離れるほど、縮小のパフォーマンスは低下します(ただし、少なくともガウス分布変数の場合、パフォーマンスの向上をもたらすある程度の縮小が存在します)。そのため、結果が通常ゼロから遠い場合、ゼロに縮小してもほとんど改善されません。
セクストゥスエンピリカス

1
@MartijnWeterings明らかに、真実そのものに優先順位を付けることは理想的です(ブルズアイ)。しかし、なぜ0に縮小しても改善されるのでしょうか?それが私が望んでいることです。
Cagdas Ozgenc

@CowboyTrader 任意の値に縮小すると改善されます。そのため、0でも機能します。
セクストゥスエンピリカス

@MartijnWeteringsはい。ただし、学習理論の限界はほとんど常に起源に基づいています。彼らは起源を中心にボール/多面体などを置きました。それは単なる証明の利便性ですか?MDL仮説エンコーディングは、0に最短のコード長を与えることで整数をエンコードしますか?それは偶然ですか?
カグダスオズゲンク

1
したがって、すべての変数が実際にモデルの一部である(実際には一般的ではない)場合にリッジ回帰を実行すると、それほどうまく機能しません。たぶん、これはエイドリアンが「効果は平均してゼロであり、それらは小さい傾向がある」という意味です(それが正確に当てはまる場合は知りません。しかし、機械学習では多くの場合パラメーター、および多くはおそらく必要ない場合、効果のほとんどはゼロまたは小さいです。)
Sextus Empiricus
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.