統計では、線形回帰を開始しています。一般に、が高いほど良いことはわかっていますが、が高いと役に立たないシナリオはありますか?
統計では、線形回帰を開始しています。一般に、が高いほど良いことはわかっていますが、が高いと役に立たないシナリオはありますか?
回答:
はい。統計モデルを評価するための基準は、特定の問題に依存しており、機械的機能や統計的有意性(重要ではありません)ではありません。関連する質問は、「モデルはデータの理解に役立ちますか?」です。
高くする最も簡単な方法は、左の靴で右の靴を後退させるのと同じことをすることです。右の靴のサイズを教えてください。左の靴のサイズを非常に正確に予測できます。巨大なR 2!なんて素晴らしい統計モデルでしょう!それは不意にうんちを意味することを除いて。同じ変数を回帰の左右に配置することで素晴らしいR 2を得ることができますが、この巨大なR 2回帰はほぼ間違いなく役に立たないでしょう。
右側に変数を含めることが概念的に間違っていること(が発生した場合でも)である他のケースがあります。少数派グループが差別されており、仕事に就く可能性が低いかどうかを推定しようとしているとしましょう。マイノリティの求職に反応する可能性が低いことが差別が発生するチャネルである可能性があるため、会社が求職後にコールバックを行ったかどうかを制御するべきではありません!間違ったコントロールを追加すると、回帰が無意味になります。
リグレッサーを追加することで、R 2をいつでも増やすことができます!好きなR 2を取得するまで、右側にリグレッサを追加し続けることができます。労働所得を予測するために、ある時点で教育統制、年齢統制、四半期固定効果、郵便番号固定効果、職業固定効果、企業固定効果、家族固定効果、ペット固定効果、髪の長さなどを追加できます。意味をなさないが、R 2は上昇し続ける。すべてをリグレッサーとして追加することは、「キッチンシンク」回帰として知られています。高いR 2を取得できますが、データを大幅にオーバーフィットする可能性があります。モデルは、モデルの推定に使用されるサンプルを完全に予測します(高いR)しかし、推定データは新しいデータでは恐ろしく失敗します。
同じ考えが多項式曲線近似に現れる可能性があります。ランダムなデータを教えてください。おそらく、200度の多項式をあてはめることで素晴らしい得ることができます。しかし、新しいデータでは、推定多項式は過剰適合のために機能しません。繰り返しますが、推定モデルでは高いR 2ですが、推定モデルは役に立ちません。
ポイント(3-4)がを調整した理由です。これにより、より多くのリグレッサーを追加するためのペナルティが提供されますが、通常、調整されたR 2は、データをオーバーフィットすることでうまくいきます。また、ネガティブになる可能性があるという非常に無意味な機能もあります。
低で十分な場合(たとえば、資産価格モデルでベータを推定する場合)の例を挙げることもできますが、この投稿はすでにかなり長くなっています。要約すると、全体的な質問は、「問題と統計について知っていることを知って、このモデルはデータの理解/説明に役立ちますか?」のようなものでなければなりません。R 2はこの質問に答えるのに役立つツールになる可能性がありますが、R 2が高いモデルほど優れているため、単純ではありません。
「高いほど良い」というのは、R-squareの悪い経験則です。
ドン・モリソンは数年前にいくつかの有名な記事を書いており、ゼロに近づいたR-squaresは業界によっては実用的で収益性が高いことを実証しています。たとえば、1,000万世帯に送信する雑誌購読への応答を予測するダイレクトマーケティングでは、応答が上位2桁または3桁に基づいている場合、1桁未満のR平方は(ROIベースで)有益なキャンペーンを生成できます。可能性。
別の社会学者(その名前は私をエスケープします)は、データタイプ別にR平方をセグメント化しました。期待されていた。彼らはさらに、80-90%以上のR-squaresはおそらく基本的な回帰の仮定に違反していると述べました。ただし、この著者は、マーケティングミックス、時系列データ、またはR-を生成できる「因果的」機能の完全なセット(価格、プロモーション、場所、製品の古典的な4つの「P」など)正方形が100%に近づきます。
とはいえ、予測モデルに関する最初の質問が常に「R平方とは何か」である技術的な知識のない人を扱う場合、これらのような賢明なベンチマークの経験則でさえ、それほど役に立ちません。