バイアス/分散のトレードオフ計算


8

私は問題をアンダーフィッティング/オーバーフィッティングの用語で理解していますが、その背後にある正確な数学を理解するのに苦労しています。私はいくつかのソースをチェックしました(ここではここではここではここここでは、)が、正確にバイアスと分散のような互いに対向なぜ私はまだ例えば、表示されませんex そして ex 行う:


ソース

誰もが次の方程式を導き出しているようです(既約エラーを省略して ϵここ) 次に、ポイントをホームに移動して、右側の用語が動作する理由を正確に示す代わりに、この世界の不完全さ、そして正確かつ普遍的であることが同時に不可能であることはどれほど不可能であるかについてさまよい始めます。

E[(θ^nθ)2]=E[(θ^nE[θ^n])2]+(E[θ^nθ])2

明らかな反例

たとえば、平均が標本平均を使用して推定されている、つまりそして、場合: 以来、および、我々は: μX¯n=1ni=1nXiθμθ^nX¯n

MSE=Var(X¯nμ)+(E[X¯n]μ)2
E[X¯n]=μVar(μ)=0
MSE=Var(X¯n)=1nVar(X)n0

したがって、質問は次のとおりです。

  1. なぜ正確と同時に減少させることができないのですか?E[(θ^nE[θ^n])2]E[θ^nθ]
  2. なぜ公平な推定量を取り、サンプルサイズを増やすことで分散を減らすことができないのでしょうか。

回答:


11

まず、疑問に思った場合に備えて、二乗バイアスと分散がように動作するとは誰も言っていません。重要なのは、一方が増加し、もう一方が減少することです。これは、ミクロ経済学の需給曲線に似ています。これは、伝統的に直線として描かれ、時々人々を混乱させます。繰り返しますが、ポイントは、一方が下向きに傾斜し、もう一方が上向きに傾斜していることです。e±x

あなたの重要な混乱は、横軸上にあるものについてです。サンプルのサイズではなく、モデルの複雑さです。はい、あなたが書いているように、公平な推定量を使用する場合、サンプルサイズを大きくすると、分散が減少し、より良いモデルが得られます。ただし、バイアスと分散のトレードオフは固定のサンプルサイズのコンテキストであり、変化するのは、たとえば予測子を追加することによるモデルの複雑さです。

モデルAが小さすぎて、真のパラメーター値が非ゼロである予測子が含まれておらず、モデルBがモデルAを包含しているが、パラメーター値が非ゼロであるすべての予測子が含まれている場合、モデルAからのパラメーター推定は偏り、モデルBからはバイアスされません-しかしモデルAのパラメーター推定値の分散は、モデルBの同じパラメーターの分散よりも小さくなります。


2
答えてくれてありがとう。は、明らかに反対の機能のポイントを示すためにのみ言及しました。どちらにしても、トレードオフは多変量システムの属性であり、単変量のケースでは簡単に示すことができないと言っていますか?定性的に言えば、モデルの複雑さとオーバーフィッティングのポイントがわかりますが、数学的に示すことはできますか?ex
ayorgo 2018年

2
普通の最小二乗法など、特定のモデルクラスに限定すると、数学的にそれを表示できます。最も単純なケースでは、真のDGPは単一の変数に線形に依存します。その場合、モデルAは単純な平均モデルになり、モデルBは回帰となり、バイアスと分散を計算できます。また、必要に応じて、より高い累乗を含めて、さらに分散させることができます。xxx
ステファンコラサ

1
OPが言及する値は母集団の値です。これらの値の推定値にはゼロ以外の相関がある可能性があります。たとえば、KingとZhen:gking.harvard.edu/files/gking/files/0s.pdf 11ページを参照してください。分散も減少します。」ただし、StephanがOPのプロットの水平軸はモデルの複雑さであり、KingとZhengの例は、デフォルトではロジスティック回帰よりも複雑であると述べています。
Lucas Roberts

1

モデルがノイズに適合する傾向が高い場合、問題が発生します。f(x,θ)

その場合、モデルは適合しすぎる傾向があります。つまり、実際のモデルだけでなく、モデルでキャプチャしたくないランダムノイズも表現しています(ノイズは非体系的な部分なので、新しいデータを予測することはできません)。

このバイアスによって分散/オーバーフィッティングがバイアス/アンダーフィッティングの増加よりも強く減少する場合(つまり、実際のモデルを正しく表さない場合)は、バイアスを導入することにより、フィッティングの総誤差を改善(減少)する可能性があります。 。

1.なぜとを同時に減らすことができないのですか?E[(θ^nE[θ^n])2]E[θ^nθ]

本当じゃない。彼らはでき(場合によっては)同時に減少させること。分散とバイアスの両方を増加させるバイアスを導入したと想像してください。次に、逆方向にこのバイアスを減らすと、バイアスと分散が同時に減少します。

たとえば、サイズサンプルのスケーリングされた二乗平均平方根差は、母標準偏差の不偏推定量です。。ここで、 がある場合、この定数サイズを小さくすると、バイアスと分散の両方が減少します。c1n(xix¯)2nσc=nn1c>nn1c

ただし、正則化で(意図的に)追加されるバイアスは、多くの場合、分散を減らす種類のものです(たとえば、を未満のレベルに減らすことができます)。したがって、バイアスと分散のトレードオフが発生し、バイアスを削除すると(実際には)分散が増加します。cnn1

2.公平な推定量を使用して、サンプルサイズを増やすことで分散を減らすことができないのはなぜですか。

原則のことができます。

だが、

  • これは、より多くのサンプリング作業を必要とする可能性があり、これは多くの場合制限です。
  • おそらく、特定の推定問題で計算上の問題が発生する可能性があり、それが可能であれば、これを解決するためにサンプルサイズを非常に大きくする必要があります。

    (例えば、高次元パラメータ>測定、またはリッジ回帰の場合のように:グローバル最適の周りの非常に浅いパス)

多くの場合、バイアスをかけることに異論はありません。(多くの場合のように)全体の誤差を減らすことについてである場合は、偏りがあるがエラーの少ない推定量を使用することをお勧めします。

あなたの反例について。

2番目の質問に関連して、サンプルサイズを増やすことで実際にエラーを減らすことができます。また、最初の質問に関連して、バイアスと分散の両方を減らすこともできます(たとえば、スケーリングされた標本平均を母集団平均の推定量として使用し、スケーリングパラメーター変化させることを検討してください)。cxinc

ただし、実際に関心のある領域は、バイアスの減少が分散の増加と一致する場所です。以下の画像は、分散= 1および平均= 1の正規分布から取得したサンプル(サイズ= 5)を使用してこのコントラストを示しています。スケーリングされていないサンプル平均は、母平均の不偏予測子です。この予測子のスケーリングを増やす場合は、バイアスと分散の両方を増やします。ただし、予測子のスケーリングを減少させると、バイアスは増加しますが、分散は減少します。その場合、「最適な」予測子は実際にはサンプル平均ではなく、縮小された推定量です(James-Stein推定量が「収縮」推定量と呼ばれる理由も参照)。

サンプル平均の縮小における過剰適合と過適合

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.