回答:
つまり、予測値に対して個々のエラーをプロットするとき、エラー予測値の分散は一定でなければなりません。下の図の赤い矢印を参照してください。赤い線の長さ(分散のプロキシ)は同じです。
これは、数学の不安がある人にとっても、いくつかの数式を見るのに役立つことがわかっている場所です(必ずしもそうすることをお勧めするわけではありません)。単純な線形回帰モデルは次のとおりです
ここで重要なのは、このモデルが明示的にデータ内の意味のある情報(「」)をすると、ホワイトノイズ以外は何も残っていません。さらに、誤差は分散をもつ正規分布として分布します。
は変数ではないことを認識することが重要です(中学校レベルの代数では、それを呼び出します)。変わりません。 は異なります。 は異なります。エラー項はランダムに変化します。つまり、ランダム変数です。ただし、パラメーター(は、値のプレースホルダーです。これらは変化しません。代わりに、それらは未知の定数です。この議論のこの事実の結果は、が何であろうと(つまり、そこにどんな値がプラグインされているとしても)、 Y = β 0 + β 1 X + ε同じまま。言い換えれば、誤差/残差の分散は一定です。コントラスト(およびおそらくより明確)のために、このモデルを検討してください:
この場合、値をします(3行目から開始) 、関数を介して渡し、正確な値で取得する誤差分散を取得します。その後、残りの方程式を通常どおりに進めます。
X F (X )X
上記の説明は、仮定の性質を理解するのに役立つはずです。質問は、それを評価する方法についても尋ねます。基本的に2つのアプローチがあります。正式な仮説検定とプロットの検査です。実験的データ(つまり、固定値でのみ発生するデータ)またはANOVA がある場合、不均一分散のテストを使用できます。ここでそのようなテストについて説明します:なぜF比ではなく分散の等値性のレベンテスト。しかし、私はプロットを見るのがベストだと思う傾向があります。@Penquin_Knightは、等分散性が近似値に対して得られるモデルの残差をプロットすることにより、一定の分散がどのように見えるかを示す良い仕事をしました。不均一分散は、生データのプロット、またはスケール位置(拡散レベルとも呼ばれる)プロットでも検出される可能性があります。Rは、後者を呼び出して便利にプロットしplot.lm(model, which=2)
ます。これは、適合した値に対する残差の絶対値の平方根であり、有用な低曲線がオーバーレイされています。低いフィットは、傾斜ではなく平坦にする必要があります。
以下のプロットを検討してください。これらの3つの異なるタイプの図で、ホモセダスティックデータとヘテロセダスティックデータがどのように見えるかを比較しています。上の2つの不均一分散プロットのファンネル形状と、最後のプロットの上方に傾斜した低線に注意してください。
完全を期すために、これらのデータを生成するために使用したコードを次に示します。
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)