ん持って-squared -値を?


18

乗値にも値があるかどうかを理解しようとして混乱しているようです。prp

私が理解しているように、データポイントのセットとの線形相関では、はから範囲の値を持つことができ、この値は、それが何であれ、がと著しく異なるかどうかを示す値を持つことができます(つまり、 、2つの変数の間に線形相関がある場合)。1 1 p r 0r11pr0

線形回帰に移ると、関数をデータに適合させることができます。これは、方程式で記述されます。と (切片と勾配)にも値があり、それらが大きく異なるかどうかを示し。a b p 0Y=a+bXabp0

私は今のところ正しいのすべてを理解していると仮定すると、あるための-値とための-値だけで同じこと?それは値を持つ乗ではなく、またはを持つと言うのは正しいですか?r p b r p r bprpbrprb

回答:


14

指摘、他のユーザーによって数多くの(正しい)のコメントに加えていることのために-値同じであるグローバルのための-値あなたにも得ることができることをテスト、ノートに関連付けられている-値帰無仮説のがとして分布するという事実を使用して「直接」、およびは分子関連する統計量の分母の自由度。r 2 p F p r 2 r 2 Betav npr2pFpr2r2vnvdFBeta(vn2,vd2)vnvdF

ベータ版ディストリビューションに関するWikipediaエントリの「他のディストリビューションから派生」サブセクションの3番目の箇条書きは、次のことを示しています。

もしと独立しており、その後。Y χ 2β XXχ2(α)Yχ2(β)XX+YBeta(α2,β2)

それで、形式でを書くことができます。Xr2XX+Y

してみましょう変数の自乗の総和も、の回帰の二乗誤差の和もいくつかの他の変数に、そして、ある「還元二乗和、」可能。それから そしてもちろん、平方和であるとは両方とも、それぞれおよびの自由度を持つとして配布されます。したがって、 Y S S E Y S S R S S R = S S Y - S S E r 2 = 1 - S S ESSYYSSEYSSRSSR=SSYSSE SSRSSEはχ2Vn個のVDのR2ベータVのNを

r2=1SSESSY=SSYSSESSY=SSRSSR+SSE
SSRSSEχ2vnvd
r2Beta(vn2,vd2)
(もちろん、2つのカイ2乗が独立していることは示しませんでした。コメンテーターがそれについて何か言うことができるかもしれません。)

Rでのデモンストレーション(@gungからのコードの借用):

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731

6

この4番目の(!)回答がさらに物事を明確にすることを願っています。

単純な線形回帰では、3つの同等のテストがあります。

  1. 共変数母集団勾配がゼロのt検定X
  2. と応答母集団相関がゼロのt検定XY
  3. 母集団がゼロのR乗のF検定、つまり違いによっての変動性を説明できない。YX

3つのテストはすべて、と間の線形関連をチェックし、幸いなことに(!)、すべて同じ結果になります。テスト統計は同等です。(テスト1および2は、テスト統計の2乗だけで、テスト3のサンプリングF分布に対応する df のスチューデント分布に基づいています)。XYn2

Rの簡単な例:

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

ご覧のように、3つのテストでは同じp値0.00218が得られます。テスト3は、出力の最終行にあることに注意してください。

したがって、R 2乗のF検定は非常に頻繁に行われますが、R 2乗の検定として解釈する統計学者は多くありません。


5

あなたは私に十分な理解を持っているようです。値を取得できますが、これは(確率的ではない)関数でため、は同一になります。 pr2rp


そうは思いません。約推論接続及び約推論に及び OLSからの、あれば有意であるかかわらず、ゼロ以外である。ただし、またはがゼロ以外の場合、は重要です。これにより、それぞれのテストが評価しているものを視覚化できます。ρr2αβρβαr2αβ
AdamO 14

1
@AdamO、私はあなたのコメントの議論に従うことができません。以下のMichael Mayerの投稿と同様に、Rで試してくださいset.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))。rのpは.265です。aのpがであるとしても、bとpのグローバルF検定のpは同じです6.96e-09
GUNG -復活モニカ

まさに私のポイント。はとは異なり、値は同一ではありません。の関数であってもよいが、それも単調関数ではありません。は、がそうでない場合に重要になります。は何を測定しますか?OLSトレンドラインを描画して残差を計算した後の残差標準誤差です。あなたの例では、残差分散は無条件の分散よりも小さくなりますか?絶対に。は重要です。ブートストラップを使用して動作特性を計算でき、ANOVAと通常の最小二乗間の接続も問題に光を当てます。rr2pr2rr2rr2Yr2
AdamO 14

4
帰無仮説の下でがとして分布しているという事実を使用して、関連付けられた値を「直接」取得することもできますここで、とは、それぞれ関連する統計の分子と分母の自由度です。(ここで3番目のIDを参照してください:en.wikipedia.org/wiki/…。)@gungのサンプルデータを使用すると、入力するとが取得されます。pr2r2Beta(vn2,vd2)vnvdFR1 - pbeta(0.06856, 1/2, 18/2)0.2647731
ジェイクウェストフォール14

4
@AdamO、まだわかりません。それらは両方とも.265、どのように同一ではないのですか?
GUNG -復活モニカ

4

ピアソン相関の検定の検定統計量を導出する方法はいくつかあります。値を取得するには、帰無仮説の下で検定と検定統計量のサンプリング分布の両方が必要であることを強調する価値があります。あなたのタイトルと質問には、ピアソン相関と「分散の説明」間に混乱があるようです。最初に相関係数を検討します。ρpr2

私が知っているピアソン相関をテストする「最良の」方法はありません。フィッシャーのZ変換は、双曲線変換に基づくそのような方法の1つであるため、推論はもう少し効率的です。これは確かに「良い」アプローチですが、残念なことに、このパラメーターの推論は、関連付けの勾配パラメーター推論と一貫性があり、長期的には同じ話をします。β

統計学者は、(古典的)全額のテスト好まれている理由私たちがあるためである、線形回帰、BLUE推定量である:「最良」のテストを持っています。現代の統計の時代には、テストが「ベスト」であるかどうかはあまり気にしませんが、線形回帰には、2つの変数間の関連性を判断する継続的な使用を正当化する他の素晴らしいプロパティがたくさんあります。一般的に、あなたの直感は正しいです。それらは本質的に同じものであり、より実用的な関連付けの尺度として注意を集中します。ββ

傾き及び切片の両方の関数です。これらの値のいずれかがゼロでない場合、は、線形パラメーターがゼロの場合に予想されるものと比較して、識別可能なサンプリング分布を持つ必要があります。ただし、nullの下で分布を導き出し、いくつかの対立仮説の下でと比較しても、このテストに必要なものを検出する力があるという確信は得られません。ただの直感。再び「最適な」推定器に目を向けると、OLSは勾配と切片の両方の「最適な」推定値を提供するため、モデルパラメーターを直接テストすることで、同じ関連性(存在する場合)を決定するのに少なくともテストが良いという確信があります。私には、共同でテスト、R 2 、R 2 、R 2 α β R 2r2r2r2r2αOLSを使用したおよびは、(おそらく)ネストされていない予測モデリングキャリブレーションアプリケーションの場合を除いて、に関するテストよりも優れています...βr2


1
r2

r2=1(xi,β0)i{1,2,n}r2=1
AdamO 14

1

prr2rr2p

pbb0rr2r2

p0 0 0a000

誰かが値を定期的に計算する場合は、それらについて聞いてみたいと思います。r 2pr2


4
お気に入りの回帰コマンドの出力を詳しく見てみましょう統計とそのp値を報告する必要があります。とは直接かつ単調に関連しているため、これはのp値でもあります。データの通常の回帰の場合、です。そのp値は、勾配のp値になります。したがって、通常の回帰でにp値を使用したことがある場合は、 p値を使用したことになります。R 2 F R 2 n F = n 2 R 2 /1 R 2b R 2FR2FR2nF=(n2)R2/(1R2)bR2
whuber

実際には、人々はrまたはr ^ 2の重要性に関して考えていないようです。より有用なのは、それらの周囲の信頼区間です。
Nブラウワー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.