線形モデルの仮定を検証するための残差対適合値プロットの解釈


34

Rを使用したFarawayの線形モデル(2005年、59ページ)の次の図を検討してください。

ここに画像の説明を入力してください

最初のプロットは、残差と適合値が無相関であることを示しているようです。これらは、正規分布誤差のあるホモセダスティック線形モデルにあるはずです。したがって、2番目と3番目のプロットは、残差と近似値の間の依存関係を示しているように見えますが、異なるモデルを示唆しています。

しかし、Farawayが指摘しているように、なぜ2番目のプロットは異分散線形モデルを示唆し、3番目のプロットは非線形モデルを示唆しているのでしょうか?

2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようですが、3番目のプロットではそのような傾向は明らかではありません。そのため、理論的に言えば、正規分布誤差を持つ不均一線形モデルである場合

Cor(e,y^)=[1111]

(左の式は残差と近似値の間の分散共分散行列です)、これは2番目と3番目のプロットがFarawayの解釈と一致する理由を説明します。

しかし、これは事実ですか?そうでない場合、2番目と3番目のプロットに対するFarawayの解釈は他にどのように正当化できますか?また、なぜ3番目のプロットが必ずしも非線形性を示しているのですか?線形である可能性はありますが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?


3
3つのプロットのいずれも相関を示しません(少なくとも線形相関。これは、「残差と近似値は無相関」で使用されている意味での「相関」の関連する意味です)。
-Glen_b

1
@Glen_b:ありがとう。「相関関係」を「依存関係」に置き換えることで、参照している段落を修正しました。
エヴァンAad

回答:


46

以下は、近似の平均値と点の広がり(値のほとんどを含む制限)が近似(したがって)の各値でマークされた残差プロットです-条件付き平均(赤)および条件付き平均を示す大まかな近似±(ほぼ!)条件付き標準偏差(紫色)の2倍:x±

近似の各平均値と広がりをもつ診断プロット

  • 2番目のプロットは、平均残差が近似値で変化しないことを示しています(したがって変化しません)が、残差の広がり(したがって、近似線に関するyの広がり)は適合値(またはx)の変更。つまり、スプレッドは一定ではありません。異分散性。xyx

  • 3番目のプロットは、近似値が小さい場合は残差がほとんど負であり、近似値が中央にある場合は正であり、近似値が大きい場合は負であることを示しています。つまり、スプレッドはほぼ一定ですが、条件付き平均はそうではありません。関係が曲線的であるため、xが変化したときの振る舞いはフィット線では表されません。yx

線形である可能性はありませんが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?

そうではありません*。そのような状況では、プロットは3番目のプロットとは異なって見えます。

(I)のエラーは正常であったが、ゼロを中心としませんが、時ならば、たとえば、その後、切片は平均誤差を拾うだろう、と推定切片は推定値になるように、β 0 + θ(つまり、その期待されます値ですが、エラーで推定されます)。その結果、残差は条件付き平均ゼロのままであるため、プロットは上の最初のプロットのようになります。θβ0+θ

(ii)エラーが正規分布していない場合、ドットのパターンは中心線以外で最も密集している可能性があります(データが歪んでいる場合)が、局所平均残差はまだ0に近くなります。

正常でないエラー

ここで、紫色の線は、まだ(非常に)およそ95%の間隔を表していますが、もはや対称ではありません。(ここで基本的なポイントが不明瞭になるのを避けるために、いくつかの問題について詳しく説明します。)

xyx


1
私が正しく理解しているかどうか見てみましょう。等分散性は、誤差の広がりがxに依存しないことを意味します(したがって、依存しませんy^y^x

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
エヴァンAad

1
(ctd)...特に「あなたは想像できます...」で始まる文章の結果として、私の答えの下にある私の最初のコメントから見ることができるはずです-しかし、それはに関連する不均一分散性をほとんど排除しています平均。
Glen_b-モニカの復活2013

2

あなたが書いた

2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようです。

「見えない」ように見えます。そして、それがヘテロスケダスティックの意味です。

次に、すべて1のマトリックスを与えますが、これは無関係です。相関が存在し、1未満になる場合があります。

その後、あなたは書く

また、なぜ3番目のプロットが必ずしも非線形性を示すのですか?線形である可能性はありませんが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?

それら 0を中心に配置されます。半分ほどが0未満で、半分が上です。それらがこのプロットから正規分布しているかどうかを見分けるのは困難ですが、通常推奨される別のプロットは、残差の分位点正規プロットであり、それが正規かどうかを示します。


N(0,V)Vσ2I

1
分位点標準プロットは、正規性のみを調べます。最初のプロットでの等分散性の証拠は視覚的です
Peter Flom-Reinstate Monica

@PeterFlom:ネクロポストについては申し訳ありません:各ポイント(xi、yi)でエラーを考慮する定量化について少し混乱しています:いくつかの応答(xi、y1_1)、(xi、yi_2)、... 、(xi、yi_m)は入力xiに対して; i = 1,2、...、n(データポイントの数)そして、値yi_jの平均と分散を見つけますか?線形回帰でy = ax + b、x、y、a(または多重線形のy + a1x1 + a2x2 + ... anxnでai、xi)がランダム変数であり、固定値ではない理由について混乱しています。また、予測子の各ペアと、yが独立した値の各ペア(y、x_i)に対してこの分析を行いますか?
ゲイリー

あなたが何について混乱しているのか分かりません。各観測値には、yの予測値とyの実際の値があります。残差はそれらの差です。
ピーターフロム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.