r、rの2乗、残差標準偏差は線形関係について何を教えてくれますか?


13

リトル背景
私は、回帰分析の解釈に取り組んでいますが、私は本当にRの意味について混乱、rは乗と残留標準偏差。私は定義を知っています:

特徴づけ

rは、散布図上の2つの変数間の線形関係の強度と方向を測定します

R-2乗は、データが近似回帰直線にどれだけ近いかを示す統計的尺度です。

残差標準偏差は、線形関数の周囲に形成される点の標準偏差を記述するために使用される統計用語であり、測定される従属変数の精度の推定値です。(ユニットが何であるかわからない、ここのユニットについての情報は役に立つでしょう

(ソース:ここ

質問
私はキャラクタリゼーションを「理解」していますが、これらの用語がどのようにデータセットについて結論を導き出すかを理解しています。ここに小さな例を挿入します。これは私の質問に答えるためのガイドとして役立つかもしれません(あなた自身の例を自由に使用してください!)


これは手間がかかる質問ではありませんが、簡単な例を得るために本で検索しました(私が分析している現在のデータセットは複雑すぎて、ここに表示するには大きすぎます)

トウモロコシの大きな畑で、それぞれ10 x 4メートルの20のプロットがランダムに選択されました。各プロットについて、植物密度(プロット内の植物の数)と平均穂軸重量(穂軸あたりの穀物のグラム)が観察されました。次の表に結果を示します。
(出典:生命科学の統計

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

まず、散布図を作成してデータを視覚化します。 そのため、r、R 2および残差標準偏差を計算できます。 最初に相関テスト:
ここに画像の説明を入力してください

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

次に、回帰直線の要約:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

このテストに基づいて:r = -0.9417954、R-squared: 0.887およびResidual standard error:8.619 これらの値はデータセットについて何を教えてくれますか?質問を参照)


3
「定義」と呼ぶものは単なる特徴であり、解釈および適用方法によっては誤解を招く可能性があることに注意してください。実際の定義は定量的かつ正確です。
whuber

私が指摘したことに感謝します。私が使用したソースはこれらの定義と呼ばれますが、コンテキスト「特性」がなければ、おそらくもっと良いでしょう、私はそれを変更します!
KingBoomie

ピース:R 2乗は通常、予測変数によって説明される分散の割合として説明されるため、1に近いことが適切です。残差標準偏差の単位は、応答変数の単位である残差の単位でなければなりません。
アリステア

ありがとうございました!我々は予測ポイントのyの値をオリジナルの点のyの値を比較するため@alistaireは実際にこれがセンスHAHAHを作る
KingBoomie

Davidの答えで示唆されたように、予測に対して残差をプロットする必要があります。
HelloWorldの

回答:


5

これらの統計は、リレーションシップに線形コンポーネントがあるかどうかを示しますが、リレーションシップが厳密に線形であるかどうかはあまりわかりません。小さな2次コンポーネントとの関係は、0.99のr ^ 2を持つことができます。予測の関数としての残差のプロットが明らかになります。https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.htmlのガリレオの実験では、相関は非常に高いですが、関係は明らかに非線形です。


5

最初の回答で問題に関するフィードバックを得た後、2回目の回答を試みます。

r|r||r|

R2r2R2は、たとえば、予測応答変数が定数に設定されている場合、近似モデルの残差(応答変数の予測値と観測値の差)を残差と比較することにより、が異なる方法で計算されることがあります。

rR2rrR2rR2

残差標準誤差は、実際の観測値の分布を表す、予測された回帰直線を中心とした正規分布の標準偏差です。つまり、新しいプロットのプラント密度のみを測定する場合、近似モデルの係数を使用して穂軸の重量を予測できます。これはその分布の平均です。RSEはその分布の標準偏差であり、したがって実際に観測されたcobの重みがモデルによって予測された値からどれだけ逸脱すると予想されるかの尺度です。この場合の〜8のRSEは、穂軸重量のサンプル標準偏差と比較する必要がありますが、RSEがサンプルSDと比較されるほど、モデルはより予測的または適切になります。


@whuberこの質問に対する他の回答はまだないので、もう一度試してみることにしました。古い答えをすべて削除する代わりに、すべてを手荷物として、新しいものを書くことにしました(コピーしたRSEパラグラフを除く)。時間があれば、この2回目の試行についてのフィードバックに本当に感謝します。モデル評価のための私の通常のアプローチは、目的が通常予測であるため、クロスバリデーションとホールドアウトセットです。しかし、これらのメトリックスはかなり一般的であると同時に理解したいです。
ヨハンファルケンジャック16

2
|r|rρ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.