決定係数(


21

r 2の概念を完全に把握したいr2変数間の変動量を表すます。すべてのウェブの説明は少し機械的で鈍いです。単に機械的に数字を使用するのではなく、コンセプトを「取得」したい。

例:学習時間とテストスコア

r = .8

r2 = .64

  • それで、これはどういう意味ですか?
  • テストスコアの変動の64%は時間単位で説明できますか?
  • どうすれば二乗するだけでそれを知ることができますか?

あなたの質問はR対R二乗ではなく(あることを理解しています)、r 2の解釈に関するものです。タイトルを作り直してください。0.82=0.64r2
ロビンジラール


@amoebaは同意し、タグを引っ張った。
ブレット

有意性を判断するにはが必要です。stats.stackexchange.com/a/265924/99274も参照してください。n
カール

回答:


27

バリエーションの基本的な考え方から始めます。最初のモデルは、平均からの偏差の二乗の合計です。R ^ 2値は、代替モデルを使用して考慮される変動の割合です。たとえば、R 2乗は、平均ではなく回帰直線からの2乗距離を合計することでYの変動をどれだけ取り除くことができるかを示します。

プロットされた単純な回帰問題を考えれば、これは完全に明らかになったと思います。横軸に予測子Xがあり、縦軸に応答Yがある典型的な散布図を考えます。

平均は、Yが一定のプロット上の水平線です。Yの合計変動は、Yの平均と個々のデータポイント間の差の二乗の合計です。これは、平均線と個々のポイントの2乗および合計間の距離です。

モデルから回帰線を取得した後、別の変動性の尺度を計算することもできます。これは、各Yポイントと回帰直線の差です。各(Y-平均)2乗ではなく、(Y-回帰直線上の点)2乗になります。

回帰直線が水平以外の場合、この近似回帰直線を使用すると、平均ではなく総距離が短くなります。つまり、説明できない変動が少なくなります。説明した追加の変動と元の変動の比率は、R ^ 2です。その回帰線を当てはめることで説明されるのは、応答の元の変動の割合です。

enter image description here

以下は、平均、回帰直線、および回帰直線から各ポイントまでのセグメントを視覚化するためのグラフのRコードです。

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

>説明したバリエーションと元のバリエーションの比率はR ^ 2ですこれが得られたかどうか見てみましょう。平均からの元の変動の合計が100で、回帰変動の合計が20である場合、比率= 20/100 = .2 R ^ 2 = .2 b / c平均変動の20%(赤)が考慮されている説明された変動による(緑)(r = 1の場合)元の変動が合計50、回帰変動が合計0の場合、比率= 0/50 = 0 =平均からの変動の0%(赤)は説明されたバリエーション(緑)で説明されます。R^ 2は0ではなく1になると予想されます
。– JackOfAll

1
R ^ 2 = 1-(SSR / SST)または(SST-SSR)/ SST。したがって、例では、R ^ 2 = .80および1.00です。回帰直線と各ポイントの違いは、近​​似によって説明されないままになっていることです。残りは説明された割合です。それ以外の場合は、まさにその通りです。
ブレット

最後の段落を編集して、少しわかりやすくしました。概念的に(そして計算上)必要なものはすべてそこにあります。実際に式を追加し、SST SSEおよびSSRを参照する方が明確な場合がありますが、概念的にはそれを達成しようとしていました
Brett

すなわち、R ^ 2は平均からの総変動(SST)の割合で、期待される回帰値と平均値(SSE)の差b / wです。私の時間対スコアの例では、回帰値は、調査した時間との相関に基づいて予想されるテストスコアになります。それからの追加のバリエーションはSSRに起因します。与えられたポイントについて、調査された時間は変数/回帰で平均からの総変動のx%(SST)を説明しました。r値が高い場合、「説明」はSSRと比較したSSTの大きな割合です。r値が低い場合、「説明」はSSRと比較してSSTの割合が低いことです。
JackOfAll

@BrettMagill、私は、画像へのリンクが壊れていると思う...
ギャレット

6

2つの間の関係の数学的デモンストレーションはここにあります:ピアソンの相関と最小二乗回帰分析

数学とは別に提供できる幾何学やその他の直観があるかどうかはわかりませんが、考えられるならこの答えを更新します。

更新:幾何学的な直観

ここに私が思いついた幾何学的な直観があります。平均中心の2つの変数yがあるとします。(平均中心を仮定すると、インターセプトを無視できるため、幾何学的な直感が少し簡素化されます。)最初に線形回帰のジオメトリを検討します。線形回帰では、次のようにyをモデル化します。xyy

y=x β+ϵ

ペア()と(x 1x 2によって与えられる上記のデータ生成プロセスからの2つの観測がある場合の状況を考えますy1,y2x1,x2)。次の図に示すように、2次元空間のベクトルとして表示できます。

代替テキストhttp://a.imageshack.us/img202/669/linearregression1.png

したがって、上記の幾何学の観点から、私たちの目標は見つけることであるベクトルようにX βはベクトルに可能な最も近いYβのさまざまな選択がxを適切にスケーリングすることに注意してください。してみましょうβの値であるβの最善の可能な近似であるYと表し、Y = X β。したがって、βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^ altテキストhttp://a.imageshack.us/img19/9524/intuitionlinearregressi.png

βx βϵ^

yyxyy12+y22yy^y^原点など。

ピタゴラスの定理により、次のようになります。

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^yが平均中心ベクトル間の角度のコサインに等しいということを示しています。

したがって、必要な関係があります。

(相関)2 =れるの変動の割合yx

お役に立てば幸いです。


助けようとするあなたの試みに感謝しますが、残念なことに、これは事態を10倍悪化させました。r ^ 2を説明するために本当に三角法を導入していますか?あなたは優秀な教師になるにはあまりにも賢いです!
JackOfAll

相関^ 2 = R ^ 2である理由を知りたいと思いました。いずれにせよ、同じ概念を理解するさまざまな方法が役立つか、少なくともそれが私の視点です。

3

回帰によって目のあなたには、いくつかの直感を開発しようとしている場合は、アプレットは、使用のものであってもよいです。

データを生成してからRの値を推測し、実際の値と比較できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.