相関係数または決定係数は、回帰直線に沿った値の割合に関連していますか?


12

相関rは、2つの変数間の線形関連性の尺度です。決定係数は、1つの変数の変動がどれだけ他の変数の「説明」できるかを示す尺度です。r2

たとえば、が2つの変数間の相関である場合、です。したがって、一方の変動の64%は、他方の違いによって説明できます。正しい?r 2 = 0.64r=0.8r2=0.64

私の質問は、記載されている例では、次のステートメントのいずれかが正しいですか?

  1. 値の64%が回帰直線に沿っています
  2. 値の80%が回帰直線に沿って落ちます

「フォールアロング」という用語は不正確です。少なくともいくつかの答えはそれを「正確に置く」と解釈しているようであり、答えは明らかにそうではありません(その考えはいくつかの特定の状況に適しているかもしれない線形連関の興味深い尺度につながる可能性があります。ノイズやエラーが頻繁に発生することはありませんでした。また、汚染プロセスのように、ときどきエラーが発生することもありました。そして、汚染されていないデータの割合を推定することになります)。「正確に置く」以外のことを意味する場合は、その意味が何であるかを指定する必要があります。
Glen_b -Reinstateモニカ

回答:


8

この最初の部分は基本的に正しいですが、バリエーションの64%はモデルによって説明されています。単純な線形回帰:Y〜X 、が.64の場合、Yの変動の64%がYとXの線形関係によって決定されることを意味します。非常に低いR 2と強い関係を持つことが可能です、関係が強く非線形の場合。R2R2

2つの番号の付いた質問については、どちらも正しくありません。実際、どの点も回帰線上に正確に存在することはできません。それは測定されているものではありません。むしろ、平均点が線にどれだけ近いかという問題です。すべてまたはほぼすべてのポイントが近い場合(たとえライン上に正確にポイントがない場合でも)、は高くなります。ほとんどのポイントがラインから離れている場合、R 2は低くなります。ほとんどのポイントが近いが、いくつかのポイントが遠い場合、回帰は正しくありません(外れ値の問題)。他のこともうまくいかない可能性があります。R2R2

さらに、私は「遠い」という概念を曖昧に残しました。これは、Xの広がり具合によって異なります。これらの概念を正確にすることは、回帰のコースで学ぶことの一部です。ここには入りません。


まあそれは私のために多くをクリアしました!MimshotとPeter Flomに感謝します!両方に感謝します!:)
Bradex

1
+1、良い答えです。「確かに、[どの点も嘘をつかないかもしれません...」のようなものを追加してください。また、ポイントが線からどれだけ離れているかという概念は、Xの広がりに関連していることも議論する価値があるかもしれません。
GUNG -復活モニカ

15

あなたはあなたの声明の最初の部分で正しいです。決定係数を解釈する通常の方法は、説明変数で説明できる従属変数yV a r y )の変動の割合としてです。決定係数R 2の正確な解釈と導出はここにありますR2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

ただし、決定係数あまり知られていない解釈は、観測値y iの間の平方ピアソン相関係数として解釈することです。R2yi及び近似値Y I。決意の係数は観測値間の二乗ピアソン相関係数と同等であることを証明Y I及びフィット値Y iは、ここで見つけることができy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

私の見解では、これらは決定係数を解釈する唯一の意味のある方法です。したがって、作成した2つのステートメントはR 2から導出することはできません。R2R2


2
を解釈する方法が2つしかないことはわかりません(確かに2つ以上の解釈方法がありますR2r)与えられた二つの文から導き出すことができないということになる理由(彼らが偽であるということです@PeterFlomが説明する理由により)他の解釈は不可能です。しかし、そうでなければ、これはいい答えだと思います。R2
シルバーフィッシュ

2
与えられたリンクが将来のある時点で停止する場合(linkrotは永遠の問題です-可能な場合は自己完結型の回答を作成することを望みますが、明らかにこの質問は完全な証明を必要としないため、リンクは便利です)関係のカバレッジR 2ここでCorr(y,y^)R2ここではここで及びより幾何学的に、ここ
シルバーフィッシュ

2

ニーザー1も2も正しい。

yのセットを予測しようとしているとしましょう値セット xからの yyyxx

yi=b+mxi+ϵi

どこいくつかのノイズです。R 2 = .64は、分散の64%ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

それから

10.64=0.36=var(yyy^y^)var(yy)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.