単変量回帰が得られたときに、従属変数に関する残差のプロットを調べることが理にかなっているかどうかを知りたいのですが。それが理にかなっている場合、(y軸の)残差と(x軸の)従属変数の推定値の間の強い線形の増加する相関は何を意味しますか?
単変量回帰が得られたときに、従属変数に関する残差のプロットを調べることが理にかなっているかどうかを知りたいのですが。それが理にかなっている場合、(y軸の)残差と(x軸の)従属変数の推定値の間の強い線形の増加する相関は何を意味しますか?
回答:
推定モデルが正しく指定されていると仮定します...
したがって、予測従属変数に対する残差の散布図は、相関関係を示さないはずです。
だが!
私が知る限り、Gretlはデフォルトで元の従属変数(予測されたものではなく)に対する残差のグラフを生成します。
フィッティング/予測値と実際の値を混同している可能性はありますか?
@gungと@biostatが言ったように、フィッティングされた値と残差の間に関係がないことを望みます。一方、従属変数/結果変数の実際の値と残差の間の線形関係を見つけることは予想されることであり、特に有益ではありません。
前の文を明確にするために追加:残差と出力の実際の値の間の単なる線形関係が期待されるだけではありません... Yの測定値が低い場合、有用なモデルからのYの予測値は、実際の測定値、およびその逆
提供された答えは私にここで何が起こっているかについていくつかのアイデアを与えています。偶然に間違いがあったのではないかと思います。次の話が意味をなすかどうかを確認します。まず、データのXとYの間にはおそらく強い関係があると思います(ここにいくつかのコードとプロットがあります)。
set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")
しかし、誤ってYは単に平均から予測されました。これを複合して、平均値のみのモデルからの残差は、フィッティングされた値に対してプロットすることを意図したものであったとしても(コードとプロット)、Xに対してプロットされます。
meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red",
main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")
これを修正するには、適切なモデルをフィッティングし、それから残差をプロットします(コードとプロット):
appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))
これは私が始めたときに私が作った一種のグーフアップのようです。