回答:
大まかに言えば、予測エラーには3つの異なる原因があります。
ポイント3については何もできません(説明されていない分散を推定し、予測密度と予測間隔に組み込むことを除く)。これにより、1と2が残ります。
実際に「正しい」モデルを使用している場合、たとえば、OLSパラメーター推定値は不偏であり、すべての不偏(線形)推定量の間の分散は最小になります(青です)。OLSモデルからの予測は、最良の線形不偏予測(BLUP)になります。いいですね。
ただし、偏りのない予測とすべての偏りのない予測の間の分散は最小ですが、分散はかなり大きくなる可能性があります。さらに重要なことは、「少し」のバイアスを導入し、同時に「多くの」分散を保存できることです。トレードオフを適切に行うことで、バイアスのないモデル(分散の低いモデル)で、偏りのない(より高い分散)1。これは「バイアス分散トレードオフ」と呼ばれ、この質問とその答えは啓発的です。バイアスのある推定器は、バイアスのない推定器よりも望ましいのはいつですか。
そして、なげなわ、リッジ回帰、エラスティックネットなどの正則化はまさにそれを行います。彼らはモデルをゼロに引き寄せます。(ベイジアンのアプローチは似ています-それらはモデルを事前に引きます。)したがって、正則化モデルは非正則化モデルと比較して偏りがありますが、分散も低くなります。正則化の権利を選択した場合、結果はエラーの少ない予測になります。
「バイアスと分散のトレードオフ正則化」などを検索すると、いくつかの参考になります。たとえば、このプレゼンテーションは便利です。
編集:amoebaは、正確に正則化することでモデルと予測の分散が低くなる理由について私が手を振っているということを非常に正しく指摘しています。大きな正則化パラメーターを持つ投げ縄モデルを考えます。場合は、あなたの投げ縄パラメータ推定値はすべてゼロに縮小されます。ゼロの固定パラメーター値の分散はゼロです。(これを超えるとパラメーターがゼロに縮小されるしきい値はデータとモデルに依存するため、これは完全に正しいわけではありません。ただし、モデルとデータが与えられると、モデルがゼロモデルであるように。量指定子は常に真っ直ぐにしてください。)ただし、ゼロモデルにはもちろん大きな偏りもあります。結局のところ、実際の観察は気にしません。
そして、同じことはあなたの正則化パラメーターの極端ではない値にも当てはまります:小さい値は、正則化されていないパラメーター推定値をもたらします。分散。彼らはあなたの実際の観察に続いて、「ジャンプ」します。正則化値が大きくなると、パラメーター推定値がますます「制約」されます。これが、メソッドに「なげなわ」や「弾性ネット」などの名前が付いている理由です。これらのメソッドは、パラメーターの自由度を制限して、データの周りをフロートさせます。
(私はこれについて少し論文を書いていますが、それはむしろアクセスしやすいでしょう。利用可能になったらリンクを追加します。)
@Kolassaの正解に何かを追加するために、収縮推定の問題全体がSteinのパラドックスと結びついています。多変量プロセスの場合、サンプル平均のベクトルは許容されません。言い換えると、一部のパラメーター値には、予測リスクが低い別の推定量があります。スタインは、例として収縮推定器を提案しました。独立変数が1つまたは2つしかない場合、収縮は役に立たないため、ディメンションの呪いを扱っています。
詳細については、この回答をお読みください。どうやら、スタインのパラドックスは、3次元以上のブロウ運動過程は非再帰的(原点に戻らずに場所をさまよいます)であるのに対し、1次元および2次元のブラウニアンは再帰的であるというよく知られた定理に関連しています。
Steinのパラドックスは、実際のパラメーター値に向かって縮小する方が実際には優れていますが、縮小する方向に関係なく保持されます。これがベイジアンのすることです。彼らは、真のパラメーターがどこにあるかを知っていると考え、それに向かって縮小します。それから、彼らはスタインが彼らの存在を検証すると主張します。
それはまさに私たちの直感に挑戦するため、逆説と呼ばれています。ただし、ブラウン運動を考えると、3Dブラウン運動を原点に戻す唯一の方法は、ステップに減衰ペナルティを課すことです。収縮推定器は、推定値に一種のダンパーを課します(分散を減らします)。