高い役に立たないでしょうか?


23

統計では、線形回帰を開始しています。一般に、が高いほど良いことはわかっていますが、が高いと役に立たないシナリオはありますか?R2R2


8
stats.stackexchange.com/questions/13314での答えはあなたにいくつかのアイデアを与えるかもしれません。
whuber

2
ここでは、例を挙げて1つの状況について説明します。たとえば、そこの例でcoin2のcoin1の結果を回帰すると、R2が85%を超えますが、その明らかな関係は完全に偽です。
Glen_b -Reinstate Monica

2
はモデルではありません。したがって、「...高い R 2は役に立たないモデルから生じる」または「...高い R 2は役に立たないモデルになる」というよりも類似した何かを言う必要があります。R2R2R2
リチャードハーディ


回答:


43

はい。統計モデルを評価するための基準は、特定の問題に依存しており、機械的機能や統計的有意性(重要ではありません)ではありません。関連する質問は、「モデルはデータの理解に役立ちますか?」です。R2

R 2が高い無意味な回帰R2

  1. 高くする最も簡単な方法は、左の靴で右の靴を後退させるのと同じことをすることです。右の靴のサイズを教えてください。左の靴のサイズを非常に正確に予測できます。巨大なR 2!なんて素晴らしい統計モデルでしょう!それは不意にうんちを意味することを除いて。同じ変数を回帰の左右に配置することで素晴らしいR 2を得ることができますが、この巨大なR 2回帰はほぼ間違いなく役に立たないでしょう。R2R2R2R2

  2. 右側に変数を含めることが概念的に間違っていること(が発生した場合でも)である他のケースがあります。少数派グループが差別されており、仕事に就く可能性が低いかどうかを推定しようとしているとしましょう。マイノリティの求職に反応する可能性が低いことが差別が発生するチャネルである可能性があるため、会社が求職後にコールバックを行ったかどうかを制御するべきではありません!間違ったコントロールを追加すると、回帰が無意味になります。R2

  3. リグレッサーを追加することで、R 2いつでも増やすことができます!好きなR 2を取得するまで、右側にリグレッサを追加し続けることができます。労働所得を予測するために、ある時点で教育統制、年齢統制、四半期固定効果、郵便番号固定効果、職業固定効果、企業固定効果、家族固定効果、ペット固定効果、髪の長さなどを追加できます。意味をなさないが、R 2は上昇し続ける。すべてをリグレッサーとして追加することは、「キッチンシンク」回帰として知られています。高いR 2を取得できますが、データを大幅にオーバーフィットする可能性があります。モデルは、モデルの推定に使用されるサンプルを完全に予測します(高いRR2R2R2R2)しかし、推定データは新しいデータでは恐ろしく失敗します。R2

  4. 同じ考えが多項式曲線近似に現れる可能性があります。ランダムなデータを教えてください。おそらく、200度の多項式をあてはめることで素晴らしい得ることができます。しかし、新しいデータでは、推定多項式は過剰適合のために機能しません。繰り返しますが、推定モデルでは高いR 2ですが、推定モデルは役に立ちません。R2R2

  5. ポイント(3-4)がを調整した理由です。これにより、より多くのリグレッサーを追加するためのペナルティが提供されますが、通常、調整されたR 2は、データをオーバーフィットすることでうまくいきます。また、ネガティブになる可能性があるという非常に無意味な機能もあります。R2R2

で十分な場合(たとえば、資産価格モデルでベータを推定する場合)の例を挙げることもできますが、この投稿はすでにかなり長くなっています。要約すると、全体的な質問は、「問題と統計について知っていることを知って、このモデルはデータの理解/説明に役立ちますか?」のようなものでなければなりません。R 2はこの質問に答えるのに役立つツールになる可能性がありますが、R 2が高いモデルほど優れているため、単純ではありません。R2R2R2


多くの良い点に対して+1。私は....トーンについて言うために何を把握しようとしている
rolando2

2
+1。あなたの「常に増加する」ことは「決して減少しない」はずでしたが、少し物足りなことです。従属変数とは独立した説明変数を追加すると仮定すると、は同じままです。:DR2
usεr11852が復活モニック言う

2
R2

7

「高いほど良い」というのは、R-squareの悪い経験則です。

ドン・モリソンは数年前にいくつかの有名な記事を書いており、ゼロに近づいたR-squaresは業界によっては実用的で収益性が高いことを実証しています。たとえば、1,000万世帯に送信する雑誌購読への応答を予測するダイレクトマーケティングでは、応答が上位2桁または3桁に基づいている場合、1桁未満のR平方は(ROIベースで)有益なキャンペーンを生成できます。可能性。

別の社会学者(その名前は私をエスケープします)は、データタイプ別にR平方をセグメント化しました。期待されていた。彼らはさらに、80-90%以上のR-squaresはおそらく基本的な回帰の仮定に違反していると述べました。ただし、この著者は、マーケティングミックス、時系列データ、またはR-を生成できる「因果的」機能の完全なセット(価格、プロモーション、場所、製品の古典的な4つの「P」など)正方形が100%に近づきます。

とはいえ、予測モデルに関する最初の質問が常に「R平方とは何か」である技術的な知識のない人を扱う場合、これらのような賢明なベンチマークの経験則でさえ、それほど役に立ちません。


7

他の回答では、R 2乗値を修正/偽造/誤解を招くなどのさまざまな方法の優れた理論的説明が提供されrます。

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

これにより、R乗値> 0.90が得られます。十分なリグレッサを追加すると、ランダム値でさえランダム値を「予測」できます。


1
興味深い:コントラストset.seed(1)set.seed(2)
PatrickT
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.