線形回帰が統計的に有意であるが、r 2乗が非常に低いとはどういう意味ですか?


14

モデルは個々のデータポイントを予測するのは苦手ですが、しっかりした傾向を確立していることを意味すると理解しています(たとえば、xが上がるとyが上がる)。


9
サンプルサイズが非常に大きいことが示唆される場合があります
ヘンリー

2

回答:


27

これは、データの分散のごく一部を説明できることを意味します。たとえば、大学の学位が給与に影響を与えることを確認できますが、同時にそれはほんの小さな要因です。あなたの給与に影響を与える他の多くの要因があり、大学の学位の貢献は非常に小さいですが、検出可能です。

実用的な面では、それは平均的に大学の学位がで給与を増加することを意味するかもしれない$人の給与の標準偏差であるが、年間500 $ 10K。そのため、多くの大学の教育を受けた人は、教育を受けていない人よりも給与が低く、予測のためのモデルの価値は低いです。


11

これは「既約誤差が大きい」ことを意味します。つまり、(線形モデルで)できる最善のことは限られています。たとえば、次のデータセット:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

このデータセットのトリックは、1つの値が与えられると、y値が多すぎるため、それらすべてを満足させる良い予測ができないことに注意してください。同時に、xyの間には「強い」線形相関があります。線形モデルを近似すると、有意な係数が得られますが、Rの2乗は低くなります。バツyバツy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

ここに画像の説明を入力してください



3

線形回帰が統計的に有意であるが、r 2乗が非常に低いとはどういう意味ですか?

これは、独立変数と従属変数の間に線形関係があることを意味しますが、この関係は説明する価値がないかもしれません。

ただし、関係の有意性は、調査対象に非常に左右されますが、一般的に、統計的有意性と関連性を混同しないでください。

サンプルサイズが十分に大きい場合、最も些細な関係であっても、統計的に有意であることがわかります。


1
実際の線形回帰は、パラメーターが線形であることを意味します。生の従属変数は変換できますが、それでも線形回帰があります。あなたが統計的有意性であると思うものに少し困惑しています。私にとっては、パラメータの推定値が大きいことを意味します。
マイケルR.チャーニック

^有意性とは、結果が偶然によるものであり、予測変数と従属変数の間に関係がない確率を指します。サンプルサイズが小さく、結果が重要な場合、はい、パラメーター推定値は大きくなります。ただし、とてつもなく大きいサンプルでは、​​非常に小さなパラメーター推定値でも重要な結果が得られます。ここで試してください:danielsoper.com/statcalc/calculator.aspx
faustus

あなたが言うことは、推論が何であるかについての一般的な説明のように聞こえます。ただし、統計的有意性は、アナリストが選択した特定の有意水準(0.05。0.01など)に依存する臨界値を超える、臨界値を超えることに関係する特定の用語です。サンプルサイズも別の要因です。回帰では、関係がないことをいくつかの仮説(個別回帰係数の重要性だけでなく、テストをテストしているそれはまた、いくつかの可能なモデルの間で選ぶ段階的手順を行うことによって複雑になることがあります。。
マイケルR. Chernick

1
統計は科学でもあり芸術でもありますが、数学の原理に基づいています。
マイケルR.チャーニック

2
@MichaelChernik少し詳しく説明してもらえますか?私はファウストスに同意し(実際、私はたまたま同様の答えをした)、あなたの主張を理解できません。線形回帰では、有意性(個々の回帰係数または回帰全体の有意性)が関係のない仮説(係数が正確に0)に対してテストされます。十分なデータがあれば、係数はゼロではないが、ひどく言えます。小さな(継続)。
ルカシティ

2

これを言い換える別の方法は、個体レベルではなく人口レベルで変化を自信を持って予測できることを意味します。すなわち、個々のデータには大きなばらつきがありますが、十分に大きいサンプルを使用すると、全体的な基礎効果が見られます。政府の健康に関するアドバイスが個人にとって役に立たない理由の1つです。政府はいつか行動する必要性を感じます。なぜなら、いくつかの活動がより多くの人を全体的に多くの死に導くことがわかるからです。彼らは、これらの命を「救う」アドバイスや政策を生み出します。ただし、個々の反応のばらつきが大きいため、個人が個人的に利益を享受する可能性は非常に低い可能性があります(または、特定の遺伝的条件のために、反対のアドバイスに従うことで実際に自分の健康が改善された場合、ただし、これは母集団の集計に隠されています)。個人が「不健康な」活動から利益(喜びなど)を得る場合、アドバイスに従うことは、生涯を通じてこの明確な喜びを放棄することを意味する場合がありますが、実際にその状態に苦しむかどうかは実際には変わりません。


非常に良い例です!
kjetil bハルヴォルセン

R2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.