収縮が働くのはなぜですか?


55

モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

回答:


48

大まかに言えば、予測エラーには3つの異なる原因があります。

  1. モデルのバイアス
  2. モデルの分散
  3. 説明できない分散

ポイント3については何もできません(説明されていない分散を推定し、予測密度と予測間隔に組み込むことを除く)。これにより、1と2が残ります。

実際に「正しい」モデルを使用している場合、たとえば、OLSパラメーター推定値は不偏であり、すべての不偏(線形)推定量の間の分散は最小になります(青です)。OLSモデルからの予測は、最良の線形不偏予測(BLUP)になります。いいですね。

ただし、偏りのない予測とすべての偏りのない予測の間の分散は最小ですが、分散はかなり大きくなる可能性があります。さらに重要なことは、「少し」のバイアスを導入し、同時に「多くの」分散を保存できることです。トレードオフを適切に行うことで、バイアスのないモデル(分散の低いモデル)で、偏りのない(より高い分散)1。これは「バイアス分散トレードオフ」と呼ばれ、この質問とその答えは啓発的です。バイアスのある推定器は、バイアスのない推定器よりも望ましいのはいつですか。

そして、なげなわ、リッジ回帰、エラスティックネットなどの正則化はまさにそれを行います。彼らはモデルをゼロに引き寄せます。(ベイジアンのアプローチは似ています-それらはモデルを事前に引きます。)したがって、正則化モデルは非正則化モデルと比較して偏りがありますが、分散も低くなります。正則化の権利を選択した場合、結果はエラーの少ない予測になります。

「バイアスと分散のトレードオフ正則化」などを検索すると、いくつかの参考になります。たとえば、このプレゼンテーションは便利です。

編集:amoebaは、正確に正則化することでモデルと予測の分散低くなる理由について私が手を振っているということを非常に正しく指摘しています大きな正則化パラメーターを持つ投げ縄モデルを考えます。場合は、あなたの投げ縄パラメータ推定値はすべてゼロに縮小されます。ゼロの固定パラメーター値の分散はゼロです。(これを超えるとパラメーターがゼロに縮小されるしきい値はデータとモデルに依存するため、これは完全に正しいわけではありません。ただし、モデルとデータが与えられると、λλλλモデルがゼロモデルであるように。量指定子は常に真っ直ぐにしてください。)ただし、ゼロモデルにはもちろん大きな偏りもあります。結局のところ、実際の観察は気にしません。

そして、同じことはあなたの正則化パラメーターの極端ではない値にも当てはまります:小さい値は、正則化されていないパラメーター推定値をもたらします。分散。彼らはあなたの実際の観察に続いて、「ジャンプ」します。正則化値が大きくなると、パラメーター推定値がますます「制約」されます。これが、メソッドに「なげわ」や「弾性ネット」などの名前が付いている理由です。これらのメソッドは、パラメーターの自由度を制限して、データの周りをフロートさせます。λ

(私はこれについて少し論文を書いていますが、それはむしろアクセスしやすいでしょう。利用可能になったらリンクを追加します。)


4
パズルの重要な部分は次のように思われます:なぜ収縮方法は分散を減少させるのですか?(それらがある程度のバイアスを導入することは、多かれ少なかれ明白です。)あなたは単に彼らがそうすることを述べます。そのための直感を提供できますか?
アメーバは、モニカを復活

2
@Stephan Kolassaしたがって、係数のサイズを考慮したペナルティ項を追加すると、少しのバイアスが追加されますが、大きな係数にペナルティを課すため、ばらつきが減少します。あれは正しいですか?そして、最終的には、特定の係数の「正しい」値を取得することについてそれほど心配していません。モデルの全体的な予測能力にのみ興味がありますか?
意欲的な

2
@aspiringstatistician:あなたの2番目の文は正解です。(「間違っているが便利な」モデルについてGeorge Boxを思い出してください。)大きなパラメーターの推定値が小さなパラメーターの推定値よりも小さくなるかどうかについては、それほど心配しません。まず、これは標準化に依存します。第二に、大きなパラメータ値が適切に推定されている(つまり、エラーが少ない)場合、それらは必ずしも大きく縮小されません。正則化は、不適切に定義されている、つまり分散が大きいパラメーターを縮小することを「好み」ます。
S. Kolassa -モニカ元に戻し

3
+1。紙で頑張ってください!@aspiringstatistician:収縮が正しいモデルの取得に関係していないという非常に良い観察結果。これはまさに正しい(熟考する価値がある):正しく指定されたモデルは、正規化された「真ではない」モデルよりも予測能力が劣る場合があります(例については、このペーパーの307ページの付録を参照してください)。
アメーバは、2015

7
+1。付け加えたいのは、問題は正規化されたモデルの背後にある直感に関するものでしたが、これらのモデルのベイジアン派生は言うまでもなく、少し不完全だと感じることです。たとえば、リッジ回帰を単純なMLEと比較する場合、ほとんどのアプリケーションでは、均一な(不適切な)分布ではなく、正規分布から効果が引き出されると考えるのは自然なことです。したがって、これらの手法の両方をMAP推定の特殊なケースとして見ると、リッジ回帰を選択する理由が明らかになります。
jlimahaverford

10

@Kolassaの正解に何かを追加するために、収縮推定の問題全体がSteinのパラドックスと結びついています。多変量プロセスの場合、サンプル平均のベクトルは許容されません。言い換えると、一部のパラメーター値には、予測リスクが低い別の推定量があります。スタインは、例として収縮推定器を提案しました。独立変数が1つまたは2つしかない場合、収縮は役に立たないため、ディメンションの呪いを扱っています。p3

詳細については、この回答をお読みください。どうやら、スタインのパラドックスは、3次元以上のブロウ運動過程は非再帰的(原点に戻らずに場所をさまよいます)であるのに対し、1次元および2次元のブラウニアンは再帰的であるというよく知られた定理に関連しています。

Steinのパラドックスは、実際のパラメーター値に向かって縮小する方が実際には優れていますが、縮小する方向に関係なく保持されます。これがベイジアンのすることです。彼らは、真のパラメーターがどこにあるかを知っていると考え、それに向かって縮小します。それから、彼らはスタインが彼らの存在を検証すると主張します。

それはまさに私たちの直感に挑戦するため、逆説と呼ばれています。ただし、ブラウン運動を考えると、3Dブラウン運動を原点に戻す唯一の方法は、ステップに減衰ペナルティを課すことです。収縮推定器は、推定値に一種のダンパーを課します(分散を減らします)。


スタインのパラドックスとブラウン過程の関係についての参考文献はありますか?
kjetil bハルヴォルセン

1
「この回答をもっと読む」の下にある私のリンクをたどってください。その応答には、接続を行う論文へのリンクがあります。
プラキディア

ベイズ推定量は、完全なクラス定理によって許容されます。JS推定量とは直接関係ありません。ただし、JSがサンプル平均を支配しているという結果は、ベイズ推定量の研究に人々をより興味を持てました。(私は、ベイジアンが「スタインが彼らの存在を検証したと主張する」という主張に反対しています。)
user795305
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.