関係及び相関係数


39

2つの1次元配列とます。それぞれに100個のデータポイントが含まれます。は実際のデータであり、はモデル予測です。この場合、値は次のようになります それまでの間、これは相関係数の二乗値に等しくなり 2つを入れ替えると、は実際のデータであり、はモデル予測です。方程式から、相関係数はどちらが先かを気にしないため、a1a2a1a2R2

R2=1SSresSStot  (1).
R2=(Correlation Coefficient)2(2).
a2a1(2)R2値は同じです。しかし、式から、、値が変化する、ため我々が切り替えると変更されたからと。それまでの間、は変更されません。(1)SStot=i(yiy¯)2R2SStotya1a2SSres=i(fiy¯)2

私の質問は次のとおりです。これらは互いに矛盾することができますか?

編集

  1. 方程式の関係はどうなるのだろうと思っていました。(2)単純な線形回帰でない場合、つまり、IVとDVの関係が線形ではない場合(指数関数/対数)

  2. 予測誤差の合計がゼロに等しくない場合、この関係はまだ維持されますか?


私はこのプレゼンテーションは非常に有用と非技術的な発見:google.com/...
ihadanny

回答:


19

これは、が変わることは事実ですが、回帰平方和も変わるという事実を忘れていました。単純な回帰モデルを考えて、相関係数をとして示しましょう。ここでは、サブインデックスを使用してが独立変数であり、が従属変数であるという事実を強調します。明らかに、をと交換してもは変わりません。我々は簡単にすることを示すことができる、二乗回帰和である r 2 x y = S 2 x ySStot xyxyr2 x y xySSRxy=SyyR2 x ySSRxySyyxyR2 x y =SSRxyrxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxySyyが独立で、が従属変数である総平方和です。従って:あります対応する残差平方和は独立で、は従属変数です。この場合、、あることに注意してください(例(34)-( 41)here。)したがって:明らかに上記の方程式はに関して対称です。xySSExyxySSExy=b2 x y Sxxb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx R2 x y =Syy S 2 x yb=SxySxxxyR2 x y =R2 y xxyR2 x y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xそして、。つまり、単純回帰モデルでをで変更すると、分子と分母の両方がように変化しy
Rxy2=Ryx2.
xy R2 x y =R2 y xRxy2=SSRxySyyRxy2=Ryx2.

どうもありがとうございます!私は私が間違っていたところ、これがあるかもしれないことに気づいた: 1)モデルの予測が直線と2)モデル予測の平均値であるサンプル点の平均値に等しい場合にのみ立っています。DVとIVの関係が直線でない場合、または予測誤差の合計がゼロ以外の場合、関係は成立しません。これが正しいかどうか教えてください。R2=r2
ショーンワン

1
あなたがを使用していたので、私はこれについて考えましたが、私はOPで投稿した方程式を使用していました。これら2つの方程式は、予測誤差の合計がゼロの場合にのみ互いに​​等価です。したがって、私のOPでは、は変更されませんが、変更されるため、が変更されます。R2=SSreg/SStotSSres=i(fiy¯)2SStotR2
ショーンワン

p変量ガウス分布の一般的なケースでこれを解決する方法についての参考文献がありますか?
jmb

26

決定係数を解釈する1つの方法は、観測値と値間の平方ピアソン相関係数として見ることです。R2yiy^i

観測値yiと近似値y ^ iの間の平方ピアソン相関係数から決定係数R2を導出する方法の完全な証拠は、次のリンクで見つけることができます。

http://economictheoryblog.wordpress.com/2014/11/05/proof/

私の目には、理解するのは非常に簡単で、単一の手順に従うだけです。2つのキー数値間の関係が実際にどのように機能するかを理解することが重要だと思います。


6

唯一の予測因子を有する単純な線形回帰の場合には。ただし、複数の予測変数を使用した多重線形回帰では、予測変数と応答の間の相関の概念は自動的に拡張されません。数式は次を取得します。 R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

応答と近似線形モデル間の相関の二乗。


5

@Statは詳細な回答を提供しました。私の短い答えでは、と類似点と相違点を多少異なる方法で簡単に示します。rr2

rは、よるまたはよるの標準化された回帰係数ベータであり、そのため、(相互)効果サイズの尺度です。これは、変数が二分されたときに最も明確に見られます。その、たとえば、は、他の変数が値を反対に変更すると、ケースの30%が1つの変数の値を反対に変更することを意味します。YXXYr.30

r2、一方の発現である共変動の割合:総変動性の。これは2つの比率の積であることに注意してください。より正確には、2つの比率(比率は1より大きい場合があります)。割合または比率が準確率または傾向であることを大まかに示唆する場合、は「結合確率(傾向)」を表します。2つの比率(または比率)の結合積の別の有効な表現は、幾何平均であり、これは非常にです。r2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

(2つの比は、彼らはの大きさため乗法でなければならない。彼らのチームワークで、彼らは協力してお互いを補うことができないという考えを強調するために、添加物、乗法ではありませんに依存している両方の大きさとと、コンフォーマル、一度に2回分割しなければならない-適切な「共有分散の割合」に自分自身を変換するために、しかし。、「クロス分散」、両方と共有する同一の測定単位をと、 "自己差異"、そしてないcovσx2σy2covcovσx2σy2σxσy、「ハイブリッド分散」。そのため、「共有分散の割合」としては、ではなく方が適切です。)r2r

だから、あなたがいることがわかり意味でおよび協会の量の尺度としては(両方の意味が有効)異なっているが、それでも決してこれらの係数は互いに矛盾しました。そして、両方のは、あなたが予測するかどうかを同じまたは。rr2Y~XX~Y


どうもありがとうございます!つの定義が共存し、それらが互いに同等ではないという誤った定義を使用しているかどうか疑問に思っています。モデルが単純な線形回帰ではない(指数関数になる可能性がある)より一般的なケースを考えている場合、OPの私の方程式はを計算するためにまだ正しいという質問で私を助けてくれますか?これはとも呼ばれる異なる量ですが、「決定係数」とは異なりますか?R2R2R2
ショーンワン

決定係数またはR-squareはr ^ 2よりも広い概念であり、単純な線形回帰のみに関するものです。ウィキペディアen.wikipedia.org/wiki/Coefficient_of_determinationをお読みください。
ttnphns

再度、感謝します!私が理解していること。私の質問は、より複雑な回帰の場合、r値を2乗して決定係数を取得することはできますか?
ショーンワン14年

1
「複雑な回帰」の場合、R-squareは得られますが、rは得られません。
ttnphns 14年

1

間違っているかもしれません。もし、私はあなたが二変量モデルがあると仮定:1つのDV、1つのIVを。これらを入れ替えても、が変わるとは思いませんし、IVをIVに基づくDVの予測で置き換えても変わりません。Rでのデモ用のコードは次のとおりです。R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

2変量モデルを使用していない場合、DVの選択は影響します...変数がすべて同一に相関しない限り、私は推測しますが、これは例外ではありません。すべての変数が同じ相関強度を持ち、DVの分散の同じ部分を共有する場合(たとえば、変数の一部が完全に同一である場合、[または多分 "ie"])、これを2変量モデルに減らすことができます。あらゆる情報。行うかどうかにかかわらず、は変わりません。R2R2

他のすべての場合、3つ以上の変数で考えることができますここで、は決定係数で、はあらゆる種類の2変量相関係数です(必ずしもピアソンではなく、たとえばスピアマンの)。R 2、R ρR2r2R2rρ


1
最近、Theil線形回帰を実行し、および計算しました。Excelが -valuesを生成するのを見たことがありますが、最初はそれを笑い、その後ゆっくりと理解し、面白くなくなりました。それで、一般的な定義は正しいですか?与えるもの。R2=0.1468SSR>SSTR2R2
カール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.