t統計が非常に大きいのに、なぜR二乗が非常に低いのですか?


17

私は4つの変数を用いて回帰を実行し、すべてがT値と、非常に統計的に有意である7,9,26及び31(I言う非常に高く、明らかに有意であることが小数を含むように無関係と思われるため)。しかし、R2はわずか.2284です。ここでtの値を、それらがそうではない何かを意味すると誤解していますか?t値を見たときの私の最初の反応は、R2がかなり高いということでしたが、多分それは高いR2でしょうか?


1
あなたのは適度に大きいと思いますよね?n
Glen_b -Reinstateモニカ

@Glen_bはい、およそ6000。-
カイル

10
その場合、小さなR 2に関連付けられている大きな統計はまったく目立たない。標準誤差は1 / として減少するためtR2t-ratiosはとして増加します1/ntは増加しますが、R2nが増加しても一定のままになる傾向があります。なぜあなたはR2が何であるか気にしますか?なぜt比が気になるのですか?nR2nR2
Glen_b -Reinstateモニカ

回答:


45

t -値及びR2非常に異なるものを判断するために使用されています。t -値は、あなたの見積もりのaccurary判断するために使用されているβiさんが、しかし、R2、あなたの応答変数の変動の対策量は、あなたの共変量で説明しました。n観測値を使用して回帰モデルを推定するとします。

Yi=β0+β1X1i+...+βkXki+ϵi

ここで、ϵii.i.dN(0,σ2)i=1,...,n

t -値(絶対値)帰無仮説拒否するようにあなたを導くβi=0。これは、係数の符号を正しく推定したと確信できることを意味します。また、|t|> 4でn>5場合、0は係数の99%信頼区間にありません。t係数のための-value βi推定値との差であるβi^および標準誤差により正規化0 se{βi^}

t=βi^se{βi^}

これは、単に推定値をその変動性の尺度で割ったものです。十分な大きさのデータセットがある場合、常に統計的に有意な(大きな)t値があります。これは、必ずしも共変量が応答変数の変動の多くを説明することを意味するわけではありません。

@Statが述べたように、R2は、従属変数によって説明される応答変数の変動量を測定します。R2詳細については、ウィキペディアにアクセスしてください。あなたのケースでは、あなたが正確に推定するのに十分大きなデータセットを持って現れるβiさんが、あなたの共変量を説明すると\または応答値を予測するの貧しい人々の仕事をします。


1
(+1) It is clear from the very beginning that this is a well considered, informative explanation.
whuber

Nice answer. I find the terms "practical significance" and "statistical significance" to often be helpful in thinking about this issue.
Aaron - Reinstate Monica

3
There is also a simple transformation between the two statistics: R2=t2t2+df
Jeff

6

To say the same thing as caburke but more simply, you are very confidant that the average response caused by your variables is not zero. But there are lots of other things that you don't have in the regression that cause the response to jump around.


0

Could it be that although your predictors are trending linearly in terms of your response variable (slope is significantly different from zero), which makes the t values significant, but the R squared is low because the errors are large, which means that the variability in your data is large and thus your regression model is not a good fit (predictions aren't as accurate)?

Just my 2 cents.

Perhaps this post can help: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values


0

Several answers given are close but still wrong.

"The t-values are used to judge the accurary of your estimate of the βi's" is the one that concerns me the most.

The T-value is merely an indication of the likelihood of random occurrence. Large means unlikely. Small means very likely. Positive and Negative don't matter to the likelihood interpretation.

"R2 measures the amount of variation in your response variable explained by your covariates" is correct.

(I would have commented but am not allowed by this platform yet.)


2
You seem to write about t-values as if they were p-values.
whuber

-4

The only way to deal with a small R squared, check the following:

  1. Is your sample size large enough? If yes, do step 2. but if no, increase your sample size.
  2. How many covariates did you use for your model estimation? If more than 1 as in your case, deal with the problem of multicolinearity of the covariates or simply, run the regression again and this time without the constant which is known as beta zero.

  3. However, if the problem still persists, then do a stepwise regression and select the model with a high R squared. But which I cannot recommend to you because it brings about bias in the covariates

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.