線形回帰モデルに「一定の分散」があるとはどういう意味ですか?


53

エラー項に「一定の分散」があるとはどういう意味ですか?ご覧のとおり、1つの従属変数と1つの独立変数を持つデータがあります。定数分散は、線形回帰の仮定の1つです。ホモ分散性が何を意味するのか疑問に思っています。500行あるとしても、明らかに一定の単一の分散値を持つことになります。どの変数で分散を比較する必要がありますか?

回答:


34

つまり、予測値に対して個々のエラーをプロットするとき、エラー予測値の分散は一定でなければなりません。下の図の赤い矢印を参照してください。赤い線の長さ(分散のプロキシ)は同じです。

ここに画像の説明を入力してください


1
はい、分かりました。!!ただし、これは仮定であるため、モデルを実行する前に仮定を検証する必要はありません。そして、なぜ私たちはこの仮定を必要としない
Mukul

2
一部の前提条件は、モデルの実行後にのみテストできます。モデルの計算は単なる数学であり、モデルの解釈とは異なります。
ジョン

6
範囲は分散ペンギンナイトと等しくないため、ここで表現を更新することをお勧めします。
ジョン

4
分散の仮定が間違っている場合、通常は標準誤差が間違っていることを意味し、仮説検定では間違った結論が導き出される可能性があります。(別のジョン)
ジョン

4
私は少し異なります。不均一分散とは、必ずしもベータの標準エラーが間違っていることを意味するわけではなく、OLS推定器はもはや最も効率的な不偏推定器ではありません。つまり、一定の分散(おそらくYの変換による)がある場合、または非恒常性を正確に考慮した場合(おそらく一般化最小二乗推定器を介して)、より高いパワー/精度を得ることができます。
GUNG -復活モニカ

58

これは、数学の不安がある人にとっても、いくつかの数式を見るのに役立つことがわかっている場所です(必ずしもそうすることをお勧めするわけではありません)。単純な線形回帰モデルは次のとおりです ここで重要なのは、このモデルが明示的にデータ内の意味のある情報(「」)をすると、ホワイトノイズ以外は何も残っていません。さらに、誤差は分散をもつ正規分布として分布します。

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

変数ではないことを認識することが重要です(中学校レベルの代数では、それを呼び出します)。変わりません。 は異なります。 は異なります。エラー項はランダムに変化します。つまり、ランダム変数です。ただし、パラメーター(は、値のプレースホルダーです。これらは変化しません。代わりに、それらは未知の定数です。この議論のこの事実の結果は、が何であろうと(つまり、そこにどんな値がプラグインされているとしても)、σε2XYεβ0, β1, σε2)X Y = β 0 + β 1 X + εσε2同じまま。言い換えれば、誤差/残差の分散は一定です。コントラスト(およびおそらくより明確)のために、このモデルを検討してください: この場合、値をします(3行目から開始) 、関数を介して渡し正確な値で取得する誤差分散を取得ます。その後、残りの方程式を通常どおりに進めます。
X F X X

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

上記の説明は、仮定の性質を理解するのに役立つはずです。質問は、それを評価する方法についても尋ねます。基本的に2つのアプローチがあります。正式な仮説検定とプロットの検査です。実験的データ(つまり、固定値でのみ発生するデータ)またはANOVA がある場合、不均一分散のテストを使用できます。ここでそのようなテストについて説明します:なぜF比ではなく分散の等値性のレベンテストX。しかし、私はプロットを見るのがベストだと思う傾向があります。@Penquin_Knightは、等分散性が近似値に対して得られるモデルの残差をプロットすることにより、一定の分散がどのように見えるかを示す良い仕事をしました。不均一分散は、生データのプロット、またはスケール位置(拡散レベルとも呼ばれる)プロットでも検出される可能性があります。Rは、後者を呼び出して便利にプロットしplot.lm(model, which=2)ます。これは、適合した値に対する残差の絶対値の平方根であり、有用な低曲線がオーバーレイされています。低いフィットは、傾斜ではなく平坦にする必要があります。

以下のプロットを検討してください。これらの3つの異なるタイプの図で、ホモセダスティックデータとヘテロセダスティックデータがどのように見えるかを比較しています。上の2つの不均一分散プロットのファンネル形状と、最後のプロットの上方に傾斜した低線に注意してください。

ここに画像の説明を入力してください

完全を期すために、これらのデータを生成するために使用したコードを次に示します。

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
おかげでとても助かります。また、素人の言語でこの仮定が必要な理由を説明してもらえますか?
-Mukul

5
どういたしまして、@ Mukul。OLS推定器(つまり、既定の手順ソフトウェアがベータを推定するために使用する)を推定手順にするために、等分散性(一定の分散)の仮定が必要です。真の値を中心としたサンプリング分布。IE、OLS推定器が最小分散不偏推定器であることが必要です。
GUNG -復活モニカ

5
応答変数がbinaryの場合、二項分布として配布されます。IE、上記の線形回帰モデルの多くの部分は不適切です。これらの問題の1つは、二項分布の分散が平均の関数であるため(平均:、分散:)、同分散性の仮定に違反することです。これらのことをよりよく理解するために、ここでの私の答えを読んでみると役立つかもしれません:difference-between-logit-and-probit-models、それは別の文脈で書かれていますが。p 1 p / n p(p(1p))/n)
GUNG -復活モニカ

2
コメントの@gungでは、フレーズ最小分散不偏推定量のすべての単語に斜体を付けています。分散不均一性があると、推定量の効率が低下する(分散が大きくなる)ことを理解していますが、偏りも生じますか?
user1205901-モニカを

5
@ user1205901、それは不偏のままです。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.