単純な線形回帰出力の解釈


20

2つの変数の自然対数の単純な線形回帰を実行して、それらが相関しているかどうかを判断しました。私の出力はこれです:

R^2 = 0.0893

slope = 0.851

p < 0.001

私は混乱しています。値を見ると、2つの変数は非常に近いため、相関していないと言え。ただし、回帰直線の勾配はほぼ(プロットではほぼ水平に見えますが)、p値は回帰が非常に有意であることを示しています。R201

これは、2つの変数高度に相関していることを意味していますか?その場合、値は何を示していますか?R2

Durbin-Watson統計がソフトウェアでテストされ、帰無仮説(に等しい)を拒否しなかったことを追加する必要があります。これは変数間の独立性をテストしたと思います。この場合、変数は個々の鳥の測定値であるため、変数が依存していると予想されます。私は個人の身体状態を決定する公開された方法の一部としてこの回帰を行っているので、この方法で回帰を使用することは理にかなっていると思いました。しかし、これらのアウトプットを考えると、おそらくこれらの鳥にとって、この方法は適切ではないと考えています。これは合理的な結論に思えますか?1.35722


1
ダービン・ワトソン統計量は、かどうかを確認するために、あるシリアル相関のためにテストされ、隣接する誤差項が互いに相関しています。XとYの相関関係については何も書かれていません!テストに失敗すると、勾配とp値を慎重に解釈する必要があります。
whuber

ああ、わかった。それは、2つの変数自体が相関しているかどうかよりも少し理にかなっています...結局のところ、私は回帰を使用してそれを見つけようとしていると思いました。そして、テストに失敗したということは、この場合、傾きとp値を慎重に解釈する必要があることを示しています。ありがとう@whuber!
モグ

1
関係が弱い場合でも、特にサンプルサイズが大きい場合でも、勾配を非常に大きくすることができます(p値<.001)。これはほとんどの回答で示唆されました。傾斜は(たとえそれが重要であっても)関係の強さについて何も述べていないからです。
グレン

関係の強さを判断するには、が必要です。stats.stackexchange.com/a/265924/99274も参照してください。n
カール

回答:


22

勾配の推定値だけでは、関係の強さはわかりません。関係の強さは、誤差分散のサイズと予測子の範囲に依存します。また、有意な値は、強い関係があることを必ずしも示しません。P -値は、単に傾きが正確に0十分に大きなサンプルサイズのためのものであるかどうかをテストして、その仮説(実用的な重要性の例のものではない)からの小さな逸脱が有意もたらすのp -値を。ppp

あなたが提示3つの量の、決意の係数は、関係の強さの最大の指標を与えます。あなたの場合、R 2 = .089は、応答変数の変動の8.9 が予測変数との線形関係で説明できることを意味します。「大きな」R 2を構成するものは、分野によって異なります。たとえば、社会科学ではR 2 = .2は「大きい」場合がありますが、工場設定のような制御された環境ではR 2 > .9です。R2R2=.0898.9%R2R2=.2R2>.9「強い」関係があると言う必要があるかもしれません。ほとんどの場合、は非常に小さなR 2であるため、弱い線形関係があるという結論はおそらく妥当です。.089R2


ありがとうマクロ。非常に役立つ答え。p値が正確に何をテストしているかについての部分を含めてくれてうれしいです。勾配が1にどれだけ近いかを考慮すると、p値が非常に低いことは非常に理にかなっています。あなたの答えと@jedfrancis 'に照らして、r ^ 2値は回帰線の周りのデータポイントの「クラウド」を説明しています。優れた!それは今ではもっと明確です!
モグ

@Macro(+1)、正解。しかし、「関係の強さ」は「切片のサイズ」にどのように依存しますか?私の知る限り、インターセプトは線形関係の相関や「強さ」については何も言っていません。
whuber

@whuber、あなたは正しいです-切片は無関係であり、間違いなく相関を変更しません-私は回帰関数 vs. y = xについて考えていました後者の場合、より大きな量のyxに起因していたため、他のすべては等しく保たれました。私はそれについて考えるので今はあまり意味がありません。投稿を編集しました。y=10000+xy=xyx
マクロ

4
@macro優れた答えですが、関係が非線形であり、特に単調でない場合、強い関係であってもR ^ 2が非常に低くなる可能性があることを強調します。私のお気に入りの例は、ストレスと試験のスコアの関係です。非常に低いストレスと非常に高いストレスは、中程度のストレスよりも悪化する傾向があります。
ピーターフロム-モニカの復職

1
@macroええ、あなたの答えは良かったのですが、私は多くの統計を知らない人々と仕事をしてきました。
ピーターフロム-モニカの復職

14

従属変数の変動はモデルで説明されてどのくらいを示しています。ただし、従属変数の元の値と近似値の間の相関だけでなく、R 2も解釈できます。ここで、決定係数R 2の正確な解釈と導出を見つけることができますR2R2R2

決意の係数は観測値間の二乗ピアソン相関係数と同等であることを証明及びフィット値Y iを求めることができ、ここyiy^i

決意または係数は、従属変数の説明において、モデルの強さを示しています。あなたの場合、R 2 = 0.089です。これは、モデルが従属変数の変動の8.9%を説明できることです。それとも、あなたの間の相関係数yのとあなたの当てはめ値はyの私は 0.089です。良いR 2を構成するものは、分野に依存します。R2R2=0.089yiy^iR2

最後に、質問の最後の部分へ。従属変数と独立変数の間の相関関係について発言するダービンワトソン検定を取得することはできません。Durbin-Watsonテストは、シリアル相関をテストします。エラー条件が相互に関連しているかどうかを調べるために行われます。


9

値は、データのばらつきを当てはめモデルによって説明されてどのくらいを示しています。R2

調査の値が低いことは、データがおそらく回帰線の周りに広く広がっていることを示しています。つまり、回帰モデルはデータの変動の8.9%しか説明できません。R2

線形モデルが適切かどうかを確認しましたか?モデルをデータに適合させるためにこれを使用できるため、残差の分布を見てください。理想的には、残差は値との関係を示すべきではありません。もしそうなら、適切な方法で変数を再スケーリングするか、より適切なモデルを当てはめることを考えてください。x


@jedに感謝します。はい、残差の正常性をチェックしましたが、すべてうまくいきました。データがその回帰線の周りに広く分散しているというあなたの提案は正確です-データポイントは、ソフトウェアによってプロットされた回帰線の周りの雲のように見えます。
モグ

1
私たちのサイト@jedへようこそ。返信ありがとうございます。相関関係はXとYが測定される単位に依存しないが、勾配は依存するため、勾配自体はその符号を除いて相関関係についてほとんど何も述べていないことに注意してください。
whuber

1
@whuberはの値と言っている傾斜がないではない変数が標準化されていない限り、あなたに関連の強さについては何も言います。shabbychefsの回答を参照してください。
wolf.rauch

@ wolf.rauch gotcha
jedfrancis

@jed返信を修正するのが良いでしょう。
whuber

7

線形回帰の場合、近似勾配は相関(2乗すると決定係数を与える)に回帰の経験的標準偏差(y)を経験的標準偏差で除算したものになります。リグレッサー(x)。xyのスケーリングに応じて、1に等しいが任意に小さいR 2値の近似勾配を持つことができます。R2yxxyR2

つまり、従属変数と独立変数のスケールが互いに等しくなければならないことが確実でない限り、勾配はモデルの「適合」の良い指標ではありません。


1

私はすでに与えられた答えが好きですが、別の(そしてより舌に近い)アプローチでそれらを補完させてください。

顔のパンチが頭痛に関連しているかどうかを調べようとする1000人のランダムな人々から一連の観察結果を収集するとします。

Headaches=β0+β1Punch_in_the_face+ε

ε

β1R2

グラフィカルに、これはおそらく急な斜面のように見えますが、この斜面の周りに非常に大きな変化があります。


0

@Macroには素晴らしい答えがありました。

勾配の推定値だけでは、関係の強さはわかりません。関係の強さは、誤差分散のサイズと予測子の範囲に依存します。また、重要なpp値は、強い関係があることを必ずしも示しません。pp値は、傾きが正確に0であるかどうかを単純にテストしています。

ケースOPが記述されているように見えるものを示すために、数値例を追加したいだけです。

  • R2
  • p値で重要
  • 近い勾配1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.