Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。
回答:
ドキュメントに記載されているように、plot.lm()
6つの異なるプロットを返すことができます。
[1]適合値に対する残差のプロット、[2]適合値に対するsqrt(|残差|)のスケール位置プロット、[3]通常のQQプロット、[4]クックの距離対行ラベルのプロット、[5]レバレッジに対する残差のプロット、および[6]レバレッジ/(1-レバレッジ)に対するクックの距離のプロット。デフォルトでは、最初の3つと5つが提供されます。(私の番号付け)
プロット[1]、[2]、[3]および[5]はデフォルトで返されます。[1]の解釈については、CVでここで説明します。線形モデルの仮定を検証するための残差と近似プロットの解釈。ここで、CVの等分散性の仮定と、それを評価するのに役立つプロット(スケール位置プロット[2]を含む)について説明しました。線形回帰モデルに一定の分散を持つことはどういう意味ですか?ここで、CVで qq-plots [3]について説明しました。QQ プロットはヒストグラムと一致しません。ここでは、PP-plots vs. QQ-plotsです。ここには非常に優れた概要もあります。 QQプロットの解釈方法 したがって、残されているのは、主に、残差レバレッジプロット[5]を理解することだけです。
これを理解するには、次の3つのことを理解する必要があります。
取得する結果は、いくつかのデータポイントによって駆動されるためです。それが、このプロットがあなたが決定するのを助けるためのものです。
これらの事実を念頭に置いて、4つの異なる状況に関連するプロットを検討してください。
21
leverage std.residual cooks.d
high leverage, low residual 0.3814234 0.0014559 0.0000007
low leverage, high residual 0.0476191 3.4456341 0.2968102
high leverage, high residual 0.3814234 -3.8086475 4.4722437
以下は、これらのプロットを生成するために使用したコードです。
set.seed(20)
x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)
x2 = c(x1, 30); y2 = c(y1, 20.8)
x3 = c(x1, 19.44); y3 = c(y1, 20.8)
x4 = c(x1, 30); y4 = c(y1, 10)
* OLS回帰がデータとライン間の垂直距離を最小化するラインを見つける方法を理解するためのヘルプについては、ここで私の答えを参照してください。