は1より大きくできますか?


8

R2Wikipediaページには、が1より大きい値をとることができると書かれています。R2

0から1の範囲外の値は、観測値とモデル化された値の間の一致を測定するために使用され、「モデル化」された値が線形回帰によって得られず、使用されるR 2の定式化に依存する場合に発生します。上記の最初の式を使用する場合、値はゼロ未満になる可能性があります。2番目の式を使用する場合、値は1より大きくなる可能性があります。R2R2

その引用は「2番目の式」を参照していますが、ページに2番目の式が表示されません。

が1より大きい可能性があるシナリオはありますか?非線形回帰についてこの質問について考えていますが、一般的な答えを知りたいのですが。R2

[反対の質問を念頭に置いてこのページを見ている人:はい。は負にできます。これは、水平線よりもデータに適合するモデルを当てはめると発生します。これは通常、モデルまたは制約の選択の誤りが原因です。]R2


6
この問題は、このウェブサイトstats.stackexchange.com/questions/251337で少なくとも1回は処理されており、それに関連する質問や、完全に説明する質問が他にもあると思います。 S S t > S S e
SSTtotal=RSSメートルodel+SSEerror
SSt>SSeモデルは、切片が含まれている場合と、エラーの平均は/残差が0である場合、これは一般的にのみ真である場合相関のために、最も簡単に、に関し、何ら修正が存在しない、それが実際よりも大きくてはなりません1.相関と同じ方法で計算されるとは限らないというだけのことです。R2
Sextus Empiricus

1
したがって、2つの式があります: その可能である S S M > S S T
R2=1SSe/SSt=SSメートル/SSt
SSメートル>SSt
セクストス・エンペイリコス

R-squaredを "1.0-(absolute_error_variance / dependent_data_variance)"として計算します。絶対誤差分散はゼロより小さくできないため、私の計算ではR-squaredの最大値は1.0です
James Phillips

2
一般的に、は観測値と予測値の相関の2乗であることが最も適切であると考えるのは、これらの奇妙な点です。R2
Nick Cox

Rが2を超えると、1 + 1が2を超えることを意味します
イブラヒム

回答:


8

答えを見つけたので、質問への回答を投稿します。Martijnが指摘したように、線形回帰を使用すると、2つの同等の式によってを計算できます。R2

R2=1SSe/SSt=SSメートル/SSt

非線形回帰では、残差の二乗和と回帰の二乗和を合計して二乗和を求めることはできません。その方程式は単に真実ではありません。したがって、上記の方程式は正しくありません。これら2つの式は、つの異なる値を計算します。R2

意味があり、普遍的に使用されている(私が思うに)唯一の方程式は次のとおりです。

R2=1SSe/SSt

その値は決して1.0を超えることはありませんが、間違ったモデル(または間違った制約)を当てはめると負になる可能性があるため、(残差の二乗和)はS S t(の二乗和)より大きくなります。実際のY値と平均Y値の差)。SSeSSt

他の方程式は非線形回帰では使用されません。

R2=SSメートル/SSt

しかし、この方程式が使用された場合、モデルがデータに非常にうまく適合しないためにS S mS S tより大きい場合、は1.0 より大きくなります。これは、モデルのフィットが水平線のフィットよりも悪い場合に発生します。同じケースで、他の方程式でR 2 <0になります。R2SSメートルSStR2

結論:は、無効な(または非標準の)方程式がR 2の計算に使用され、選択されたモデル(制約がある場合)がデータに非常にうまく適合せず、水平の適合よりも悪い場合にのみ、1.0より大きくなる可能性があります。ライン。R2R2


その最後の点は正しいですか?完璧なラインでデータを検討してください。次に、この線にぴったり合うモデルを考えます。これにはSS_m / SS_t = 1があります。次に、同じモデルを検討しますが、勾配が少し急になります。これで、SS_mはわずかに大きくなり、SS_m / SS_t> 1になります。モデルは少し悪いですが、「実際には不十分」ではなく、データにうまく適合します。
Denziloe

@Denziloe。データは完全であるか、正の勾配でほぼ完全です。次に、勾配が負で、勾配が-100未満であるという制約を持つ線形回帰直線を当てはめます。フィットモデルは水平線よりもうまくフィットしないため、SSeはSStよりも大きくなります。最初の式では、R2は負になります。2番目の式では、R2は1より大きくなります。いいえ、それは現実的または一般的な状況ではありません。
Harvey Motulsky

@Denziloe。勾配を制限したり、意味のない値に切片を設定した場合にのみ、モデルはデータを非常にうまく適合しません(水平線の帰無仮説よりも悪い)。あなたの例では、モデルはデータにうまく適合し、水平線が適合するよりも優れています。
Harvey Motulsky

申し訳ありませんが、私は実際にそれを応答としてフォローしていません。私の例では、SS_m / SS_t> +1-同意しますか?そして、モデルはぴったりです-もう一度同意しますか?これは、「選択したモデルがデータに非常にうまく適合しない場合にのみ、R2が1より大きくなる可能性がある」というステートメントに矛盾するように思われます。
Denziloe

@Denziloe実際のデータと適合を送信してください。そうすれば、私/私たちはあなたの意味を理解できます。
Harvey Motulsky

4

定義により、であり、SS項は両方とも平方和であり、したがって負ではありません。で最大に達したR2=1SSe/SStSSe=0R2=1


1
これは一般的には当てはまりません。モデルの分散がエラーの分散よりも小さい場合にのみ当てはまります。例として、切片係数なしの線形回帰を考えます。
Alex R.

@AlexR。Harveys Answerを参照してください(私のものよりはるかに優れています)-これは、R 2の別の定義を使用する場合にのみ適用されますR2
AlexR 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.