plot.lm()の解釈


89

Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。



6
そしてここ(ページ72以降)、ここ
COOLSerdash

回答:


139

ドキュメントに記載されいるようにplot.lm() 6つの異なるプロットを返すことができます。

[1]適合値に対する残差のプロット、[2]適合値に対するsqrt(|残差|)のスケール位置プロット、[3]通常のQQプロット、[4]クックの距離対行ラベルのプロット、[5]レバレッジに対する残差のプロット、および[6]レバレッジ/(1-レバレッジ)に対するクックの距離のプロット。デフォルトでは、最初の3つと5つが提供されます。(私の番号付け

プロット[1][2][3]および[5]はデフォルトで返されます。[1]の解釈については、CVでここで説明します。線形モデルの仮定を検証するための残差と近似プロットの解釈。ここで、CVの等分散性の仮定と、それを評価するのに役立つプロット(スケール位置プロット[2]を含む)について説明しました。線形回帰モデルに一定の分散を持つことはどういう意味ですか?ここで、CVで qq-plots [3]について説明しました。QQ プロットはヒストグラム一致しません。ここでは、PP-plots vs. QQ-plotsです。ここには非常に優れた概要もあります。 QQプロットの解釈方法 したがって、残されているのは、主に、残差レバレッジプロット[5]を理解することだけです。

これを理解するには、次の3つのことを理解する必要があります。

  • レバレッジ、
  • 標準化された残差
  • クックの距離。

(X¯, Y¯)X取得する結果は、いくつかのデータポイントによって駆動されるためです。それが、このプロットがあなたが決定するのを助けるためのものです。

XX¯X

N

これらの事実を念頭に置いて、4つの異なる状況に関連するプロットを検討してください。

  1. すべてが正常なデータセット
  2. レバレッジは高いが標準化されていない残差ポイントを持つデータセット
  3. レバレッジは低いが標準化された残差ポイントを持つデータセット
  4. レバレッジが高く標準化された残差ポイントを持つデータセット

ここに画像の説明を入力してください ここに画像の説明を入力してください

(X¯, Y¯)21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

以下は、これらのプロットを生成するために使用したコードです。

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* OLS回帰がデータとライン間の垂直距離を最小化するラインを見つける方法を理解するためのヘルプについては、ここで私の答えを参照してください


より多くを学ぶためのすべての書き込み方向を指す良い答え。(これらのプロットを完全かつ明確な説明のように不足がありますなぜ俺は思う)
theforestecologist

けれども、ここで各プロットのための簡単な連結説明の一例です。
森林生態学者
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.