従属変数に関する残差のプロットを研究することには意味がありますか?


11

単変量回帰が得られたときに、従属変数に関する残差のプロットを調べることが理にかなっているかどうかを知りたいのですが。それが理にかなっている場合、(y軸の)残差と(x軸の)従属変数の推定値の間の強い線形の増加する相関は何を意味しますか?

ここに画像の説明を入力してください


3
「強い、線形、成長する相関関係」が何を意味するのかわかりません。プロットを表示できますか?近似値に対して残差をプロットすることは完全に合理的です。一般に、関係をなくす必要があります。中心を通る平らな水平線です。さらに、プロットの左側から右側に向かって、残差の垂直分散を一定にする必要があります。
gung-モニカの復活

こんにちは。お返事ありがとうございます。これはプロットです:img100.imageshack.us/img100/7414/bwages.png
Luigi

それは困惑しています。私が理解していることを確認しましょう:回帰モデルを実行してから、残差と近似値をプロットしました。それはそのように見えるべきではありません。質問を編集して、モデルとプロットに使用したコードに貼り付けることができますか?
ガン-モニカの復活

あなたは正しく理解しました。申し訳ありませんが、コードを取得する方法がわかりません。回帰を実行し、プログラムGretlで残差をプロットしました。
ルイージ

2
以下に回答を書き込んだとき、@ mark999のコメントは最初は表示されませんでした。私は彼の疑いは正しいと思います。これは残差対y値です。ルイージ、グラフをやり直してください-変数が何かについて間違っているかもしれないときにそれを解釈しようとしないでください。
マイケルビショップ

回答:


12

yi=β0+β1xi+ϵiβ10yiβ0ϵiyxy^iβ^0---すべての観測で同じです。すべての予測値がほぼ同じである場合、それらはエラーと無相関でなければなりません。

xyβ^1

x

Rの小さなデモが必要な場合は、次のようにします。

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

β1=0

5

推定モデルが正しく指定されていると仮定します...

PX=X(XX)1XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXY,(IPX)Y)=PXCov(Y,Y)(IPX)=σ2PX(IPX)=0

したがって、予測従属変数に対する残差の散布図は、相関関係を示さないはずです。

だが!

Cov(Y,e^)=Cov(Y,(IPX)Y)=Cov(Y,Y)(IPX)=σ2(IPX)

σ2(IPX)

私が知る限り、Gretlはデフォルトで元の従属変数(予測されたものではなく)に対する残差のグラフを生成します。


別の可能性に感謝します。ここで、Gretlに関する知識が役立ちます。しかし、これが本当の答えだというのは、もっともらしいことだと思います。シミュレーションデータを使用して、残差と元のdvを相関させてプロットしました。r = .22で、プロットは質問プロットではなく、私の3番目のプロットによく似ています。もちろん、私はこれらのデータを調べて、自分のストーリーの妥当性をチェックしました。
gung-モニカの復活

@gungシミュレーションデータを使用したとはどういう意味ですか?
マイケル・ビショップ

@MichaelBishop私の答えを見ると、私のデータをシミュレートして、投稿されたプロットのように見えるかどうかを確認するために私のストーリーを試してみることがわかります。私のコードとプロットが表示されます。私はシードを指定しているので、それはR.へのアクセス権を持つ誰もが再現可能である
GUNG -復活モニカ

4

フィッティング/予測値と実際の値を混同している可能性はありますか?

@gungと@biostatが言ったように、フィッティングされた値と残差の間に関係がないことを望みます。一方、従属変数/結果変数の実際の値と残差の間の線形関係を見つけることは予想されることであり、特に有益ではありません。

前の文を明確にするために追加:残差と出力の実際の値の間の単なる線形関係が期待されるだけではありません... Yの測定値が低い場合、有用なモデルからのYの予測値は、実際の測定値、およびその逆


あなたが言っていることの意味は、値がYの低い値で一貫して過小予測され、Yの高い値で一貫して過大予測される場合、それは問題ないということです。それは問題ですよね?
rolando2

@ rolando2、私はあなたが私が示唆したことを暗示していませんが、おそらく私の答えを明確にする必要があります。あなたが言ったように、Yの低い値で一貫して過小予測し、Yの高い値で過大予測することは、非常に悪いモデルの兆候でしょう。Yの値が低いと予測が過剰になり、Yの値が高いと予測が逆になると想像しました。この現象は一般的であり、従属変数の分散がどれだけ説明できるかにほぼ比例して予測されます。あなたは常にあなたの予測として平均を使用するので、あなたは、Yを予測するすべての変数が不足している想像して
マイケル・ビショップ

1
あなたが言ったことは、1つのことを除いて、私には理にかなっています。ルイジが示したものと同じくらい強い傾向が、左上から右下へと進んだとしても、健全なまたは望ましい解決策で現れるとは思いもしません。
rolando2 2011年

1
@ rolando2、残差は通常、観察されたとおりに定義されます-適合されているため、負の残差は過剰予測です。説明力がほとんどない適切に指定されたモデルでは-私は社会科学者なので、常にこれらを確認します-残差と観測された結果値の間に強い正の関係があります。これが残差対実際のプロットである場合、左上から右下への傾向は、最初に心配していた、誤って指定されたモデルが不適切であることを示しています。
マイケルビショップ

はい、私のせいです。Michael BishopとRoahが書いたように、Gretl は予測された yではなく、観測された y に関する残差をプロットします。私はこれらすべての混乱を非常に残念に思っています、私は本当にこれらすべての答えを期待していませんでした。私は初心者でこのエラーを犯したので、「許して」いただければ幸いです。とにかく、これは私がより多くの説明変数を使用すべきだったことを私に示すべきだと思います。ありがとうございます!
ルイージ

3

提供された答えは私にここで何が起こっているかについていくつかのアイデアを与えています。偶然に間違いがあったのではないかと思います。次の話が意味をなすかどうかを確認します。まず、データのXとYの間にはおそらく強い関係があると思います(ここにいくつかのコードとプロットがあります)。

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

ここに画像の説明を入力してください

しかし、誤ってYは単に平均から予測されました。これを複合して、平均値のみのモデルからの残差は、フィッティングされた値に対してプロットすることを意図したものであったとしても(コードとプロット)、Xに対してプロットされます。

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

ここに画像の説明を入力してください

これを修正するには、適切なモデルをフィッティングし、それから残差をプロットします(コードとプロット):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

ここに画像の説明を入力してください

これは私が始めたときに私が作った一種のグーフアップのようです。


0

このグラフは、適合したモデルが適切でないことを示しています。@gungがメインの質問の最初のコメントで述べたように、予測された応答と残差の間に関係はないはずです。

"アナリストは、ランダムな方法で応答を予測する際に回帰モデルが誤って予測することを予期する必要があります。モデルは、実際よりも高く、実際よりも低い値を等しい確率で予測する必要があります。これを参照してください"

最初に応答と独立変数をプロットして、それらの間の関係を確認することをお勧めします。モデルに多項式の項を追加するのが妥当かもしれません。


0

X変数とY変数の間に関係がない場合はどうなりますか?このグラフを見ると、本質的にYを平均で予測しているように見えます。


0

OPは、残差と元の応答変数(モデルからの近似応答変数ではない)をプロットしたと思います。私はいつもこのようなプロットをほぼ同じパターンで見ています。残差と元のYからどのような意味のある推論を収集できるかわからないので、残差と近似値をプロットするようにしてください。しかし、間違いがあるかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.