線形回帰にバイアス分散トレードオフのグラフィカルな表現はありますか?


18

私は停電に苦しんでいます。線形回帰のコンテキストでのバイアスと分散のトレードオフを示すために、次の図を紹介しました。

データの多項式モデル、単純な場合と複雑な場合

2つのモデルのいずれも適切ではないことがわかります。「単純」はXY関係の複雑さを認識しておらず、「複雑」は過剰適合であり、基本的にトレーニングデータを暗記しています。しかし、私はこれらの2つの写真の偏りと分散を完全に見ることができません。誰かがこれを見せてもらえますか?

PS:バイアスと分散のトレードオフの直感的な説明に対する答えは本当に助けにならなかったので、誰かが上の写真に基づいて異なるアプローチを提供できたらうれしいです。

回答:


11

バイアス分散のトレードオフは、平均二乗誤差の内訳に基づいています。

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

バイアスと分散のトレードオフを確認する1つの方法は、モデルの適合に使用されるデータセットのプロパティです。単純なモデルの場合、OLS回帰を使用して直線を近似すると仮定すると、直線を近似するために4つの数値のみが使用されます。

  1. xとyの間の標本共分散
  2. xの標本分散
  3. xの標本平均
  4. yの標本平均

だから、任意の上記と同じ4つの数字にリード線が全く同じフィットライン(10点、100点、100000000点)につながるグラフ。そのため、ある意味では、観測された特定のサンプルには影響されません。これは、データの一部を事実上無視するため、「バイアス」されることを意味します。データの無視された部分が重要である場合、予測は一貫してエラーになります。これは、すべてのデータを使用したフィット線を、1つのデータポイントを削除して得られたフィット線と比較した場合に表示されます。それらは非常に安定する傾向があります。

現在、2番目のモデルは取得可能なデータのすべてのスクラップを使用し、データを可能な限り近似しています。したがって、すべてのデータポイントの正確な位置が重要であるため、OLSの場合のようにフィットモデルを変更せずにトレーニングデータをシフトすることはできません。したがって、モデルは特定のトレーニングセットに非常に敏感です。同じドロップ1データポイントプロットを行う場合、近似モデルは大きく異なります。


モデルパラメーター推定のバイアスと分散または予測出力値?バイアス分散という用語は、データではなく、モデルパラメーターを記述するためにのみ使用できると言う人もいます。θ^y^θx,y
アボカド

私はこれが真実だとは思わない、あなたは予測()対推定()について話していると思う。どちらにもバイアスと分散の概念があります。たとえば、回帰パラメータには「BLUE」、将来のデータポイントを予測するには「BLUP」があります。y^θ^
確率的

パラメーター推定場合、そのバイアスはですが、は不明ですよね?さらに、データセットが与えられると、真のモデルがどのように見えるべきかわかりません。たとえば、データの背後にある真のモデルはですが、線形回帰モデルを選択しますデータに適合させるため、ここにパラドックスがあります:真のパラメーターはであり、これは推定しようとする目標ですが、、および計算または分析しますか?θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)
アボカド

@loganecolss-これはパラドックスではありません。バイアスの概念は「ローカル」にのみ存在するためです。つまり、特定の統計モデルに関してです。「パラドックス」は、1)「真のモデル」を知っている人、2)それを使用しないことに決めた人に存在します。その人は私の本の中でばかです。あなたが「真のモデルを」わからない場合は、問題はありません-あなたは良いモデルを発見し、それを使用しないことを決定していない限り...
probabilityislogic

1
あなたは「本当のモデル」を知るというこのファンタジーを持っています-それは私が思う正しい質問ではありません-より多くの質問は「私の現在のモデルには十分なまたはあまりにも多くのパラメーターがありますか?」-これは、「真のモデル」が何であるかを知ることに依存せず、標準モデルの診断を通じて回答できます。たとえば、なぜ「真のモデル」は収集した変数の関数であり、ような関数ではなく、1)何が値、および2)それらの数-つまり、がわからない。f(x,z1,z2,,zK)ziK
確率

5

私が非数学的な方法で知っていると思うことをまとめると:

  • バイアス-単純なモデルを使用すると予測が不正確になり、モデルを使用するすべてのデータセットで予測が行われます。あなたの予測は間違っていると予想されます
  • 分散-複雑なモデルを使用すると、使用しているデータセットに基づいて非常に異なる予測が得られます

このページには、あなたが投稿したものと同様の図でかなり良い説明があります。(ただし、上の部分はスキップしました図のある部分を読んで ください


それは面白いページであり、良いイラストですが、(a)回帰の文脈で議論された「バイアス」と「分散」は、その冒頭で定義されたバイアスと分散ではないようです(b)作成されているステートメント(パラメーターの数によってバイアスと分散がどのように変化するかについて)が正しいことはまったく明確ではありません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.