ある便利か危険?


233

私はCosma Shaliziによるいくつかの講義ノート(特に、2番目の講義のセクション2.1.1)をざっと読んでいて、完全に線形のモデルを持っている場合でも非常に低い取得できることを思い出しました。R2

Shaliziの例を言い換えると、モデルがありがわかっているとします。次にとの量は、分散が説明^ 2 \ Varの[X]ので、R ^ 2 = \ FRAC {^ 2 \ Varの[X]} {^ 2 \ Varの[X] + \ Varの[\イプシロン]}。これは、\ Var [X] \ rightarrow 0として0になり、\ Var [X] \ rightarrow \ inftyとして1になります。V R [ Yは] = 2 V Rを [ X ] + V R [ ε ] 2 V R [ X ] R 2が = 2 V Rを [ X ]Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X] VR[X]0VR[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

逆に、モデルが著しく非線形である場合でも、高いR ^ 2を得ることができR2ます。(誰でも良い例がありますか?)

では、R2はいつ有用な統計であり、いつ無視されるべきでしょうか?


5
別の関連コメントのスレッドに注意してください最近の質問
whuberの

36
優れた回答(特に@whuberによる回答)に追加する統計情報はありませんが、正しい回答は「R 2乗:有用危険」です。ほぼすべての統計と同様。
ピーター・フロム

32
この質問への答えは次のとおりです。「はい」
-Fomite

さらに別の回答については、stats.stackexchange.com / a / 265924/99274を参照してください。
カール

たとえば、スクリプトからは、あなたが何を私たちに伝えることができない限り、非常に有用ではありませんありますか?も定数の場合、引数は間違っていただし、が定数でない場合、プロットしてください反対小規模のためと、これは直線的である私に言う........ϵ ϵ Var a X + b = a 2 Var X ϵ Y X Var X Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
ダン

回答:


264

最初の質問に対処するには、モデルを検討します

Y=X+sin(X)+ε

iidの平均ゼロと有限分散。の範囲(固定またはランダムと見なされる)が増加すると、は1になります。それにもかかわらず、の分散が小さい場合(約1以下)、データは「著しく非線形」です。プロットでは、です。εXR2εvar(ε)=1

Xの短距離

Xの広い範囲

ちなみに、小さなを取得する簡単な方法は、独立変数を狭い範囲にスライスすることです。すべてのデータに基づく完全な回帰の高い場合でも、各範囲内の回帰(まったく同じモデルを使用)のは低くなります。この状況を考えることは、有益な演習であり、2番目の質問に対する適切な準備です。R2R2R2

次のプロットは両方とも同じデータを使用しています。完全回帰のは0.86です。(-5/2〜5/2の幅1/2の)スライスのは、.16、.18、.07、.14、.08、.17、.20、.12、.01です。 、.00、左から右に読みます。どちらかといえば、10個の別々の行が狭い範囲内のデータにより密接に適合することができるため、スライスされた状況で適合が良くなります。がすべてのスライスについては、はるかに完全未満で、どちらの関係の強さ、直線性、また実際に任意のデータのアスペクト(の範囲を除いて回帰のために使用される)変更されています。R2R2R2R2X

完全回帰の点群

10個の回帰を含むスライスされた点群

(このスライス手順はの分布を変更することに反対するかもしれません。それは事実ですが、それでも固定効果モデリングでの最も一般的な使用に対応し、が私たちに伝えている程度を明らかにします変量効果の状況での分散。特に、がその自然範囲の短い間隔内で変化するように制約されている場合、は通常低下します。XR2R2XXR2

の基本的な問題は、(重回帰で調整された場合でも)あまりにも多くのものに依存することですが、特に独立変数の分散と残差の分散に最も依存します。通常、モデルのシーケンスを比較するための「線形性」や「関係の強さ」、さらには「適合度」については何も伝えませR2

ほとんどの場合、よりも優れた統計を見つけることができます。モデルの選択については、AICおよびBICをご覧ください。モデルの妥当性を表現するには、残差の分散を見てください。 R2

これでようやく2番目の質問に至ります。が使用される可能性のある状況の1つは、独立変数が標準値に設定され、その分散の効果を基本的に制御する場合です。そして、本当に適切に標準化残差の分散のためのプロキシです。R21R2


26
@whuberによる驚くほど徹底的で応答性の高い答え
ピーター・フロム

AICとBICは、推定パラメーターの数を明示的に調整しませんか?その場合、未調整のR ^ 2と比較することは不公平に思えます。あなたの批評は調整されたR ^ 2を保持していますか?「スライシング」に対してペナルティを科せられた場合、調整されたR ^ 2はモデルの適合度についての説明に戻ることができるようです。
ラッセルピアス

7
@dr私の批判は、調整されたに完全に適用されます。違いの多くがあります唯一の例と調整、使用しているとき、ある負荷データに比べてパラメータのを。スライスの例では、ほぼ1,000個のデータポイントがあり、18個のパラメーターのみが追加されました。の調整は小数点以下2桁にも影響を与えません。ただし、場合によっては数十個のデータポイントしか存在しないエンドセグメントを除きます。そして、それらを下げ、実際に引数を強化します。R2R2R2R2
whuber

5
最初のコメントの質問に対する答えは目的に依存する必要があり、「線形関係のテスト」を解釈する方法はいくつかあります。1つは、係数がゼロでないかどうかをテストすることです。もう1つは、非線形性の証拠があるかどうかを知りたいということです。 (それ自体)はどちらにもそれほど有用ではありませんが、大量のデータを含む高いは、散布図が2番目の例や@macroの例のようにほぼ線形に見えることを意味します。各目標に対して、適切なテストとそれに関連するp値があります。R2R2
whuber

4
2番目の質問については、「最良の」線形適合が何を意味するのか疑問に思うべきです。1つの候補は、残差平方和を最小化する任意の近似です。これのプロキシとしてを安全に使用できますが、(調整された)二乗平均平方根誤差自体を調べてみませんか?より有用な統計です。R2
whuber

47

この例は、変数がモデル内にある場合にのみ適用されます。通常の最小二乗推定値を使用する場合、それは確かに適用されません。これを見るために、あなたの例で最小二乗法で推定と以下が得られることに注意してください:aX a

S 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
ここで、は(サンプル)分散で、は(サンプル)平均X ¯ X =1sX2=1Ni=1N(XiX¯)2XXX¯=1Ni=1NXiX

a^2Var[バツ]=a^2sバツ2=1N=1NバツY2sバツ2sバツ2sバツ2+バツ¯22

ここで、2番目の項は常に未満(限界のに等しい)であるため、変数からへの寄与の上限を取得します。1 R 2 X11R2バツ

a^2Var[バツ]1N=1NバツY2sバツ2

したがって、も同様に、実際にはが表示されます。を(分子はゼロになるが、分母は)。さらに、2つの項がどれだけ速く分岐するかに応じて、がから間に収束する場合があります。今、上記の用語は、一般的により速く発散するあればあればモデルであるべきで、そして遅いモデルであってはなりません。どちらの場合も、は正しい方向に進みます。R20S 2 XVR[ε]>0R201S2 X XXR21N=1NバツY2R20sバツ2Var[ϵ]>0R201sバツ2バツバツR2

また、すべてのエラーが正確にゼロでない限り、任意の有限データセット(つまり、実際のデータセット)に対してを使用することはできません。これは基本的に、が絶対的な尺度ではなく相対的な尺度であることを示しています。が実際にでない限り、より適切なモデルを常に見つけることができます。これはおそらく、の「危険な」側面であり、から間にスケーリングされるため、絶対的な意味でそれを相互運用できるようです。R 2 R 2 1 R 2 0 1R2=1R2R21R201

モデルに変数を追加すると、どれだけ速くドロップするかを確認する方がおそらく便利です。最後に、重要なことですが、変数選択ではが実質的に十分な統計情報であるため、変数選択では無視しないでください。データにある変数選択に関するすべての情報が含まれています。必要なのは、「エラーのフィッティング」に対応するドロップを選択することだけです。これは、通常、サンプルサイズと変数の数に依存します。R 2 R 2R2R2R2


4
素敵なポイントがたくさんあります。計算により、以前の応答に定量的な洞察が追加されます。
whuber

27

が危険な場合の例を追加できる場合。数年前、私はいくつかの生体認証データに取り組んでいて、若くて愚かだったので、段階的な関数を使用して構築したファンシー回帰の統計的に有意なR 2値を見つけたとき、私は喜びました。多数の国際的な聴衆へのプレゼンテーションを振り返った後、データの膨大な分散と、母集団に関するサンプルの不適切な表現と組み合わせて、0.02のR 2はまったく意味がないことを認識しました「統計的に有意」だった場合...R2R2R2

統計を扱う人はデータを理解する必要があります!


15
統計が意味を理解していれば、統計は危険ではありません。ショーンの例は、R 2乗とは特別な関係はありません。これは、統計的有意性に夢中になるという一般的な問題です。実際に統計的検定を行う場合、意味のある違いにのみ関心があります。2つの母集団が同じ分布になることはありません。それらが同等に近い場合、私たちは気にしません。サンプルサイズが非常に大きい場合、重要でない小さな違いを検出できます。それが私の医学研究コンサルティングで、臨床的有意性と統計的有意性の違いを強調している理由です。
マイケルチャーニック

11
当初、私のクライアントは、統計的有意性が研究の目標であることをしばしば薄めています。そうではないことを示す必要があります。
マイケルチャーニック

統計的に有意な 0.02では、単にその主張するあなたは十分なデータを持っていたことを意味し、R 2が 0ではありません。しかし、そう独立変数と従属変数の間の関係の非常に少ないがある0に近いです。R2R2
マイケルチャーニック

1
マイケルに完全に同意します。統計の少しの知識は危険です!:)何年も前にその洞察に基づいて、統計が実際に何を意味するのかをよりよく理解するために多くの研究を行うことにより、その無謀な間違いを繰り返さないように一生懸命働きました。修士号と統計学の博士号を取得しましたが、私はまだ自分の研究に長い道のりがあると思います!
ショーン

ショーンありがとう。コメントと謙虚さに感謝します。
マイケルチャーニック

16

予測変数が1つだけの場合、は、Xとの線形関係で説明できるYの変動の割合として正確に解釈されます。R 2の値を見るときは、この解釈に留意する必要があります。R2YバツR2

関係が線形に近い場合にのみ、非線形の関係から大きな取得できます。例えば、仮定Y = EのX + εここでX U N I F O RをM2 3 及びε N 0 1 。の計算を行う場合R2Y=eバツ+εバツうんnform23εN01

R2=cor(X,eX+ε)2

あなたはそれが周りにあることがわかりますの関係が明確に直線的ではないことにもかかわらず、(私は唯一のシミュレーションにより、この近似しました)。その理由は、ということであるEのXが区間にわたって線形関数のような非常に多くを探します2 3 .914eX(2,3)


1
エリックとマクロによる以下の発言に対して、私は誰も私のためにそれを出していないと思うし、3つの別々の答えの代わりに1つの組み合わせられた答えを持っている方がおそらく良いでしょうが、どうしてあなたが物事を書いて、あなたがそれを書く場所ではなく、言われたことに集中しますか?
マイケルチャーニック

8
@MichaelChernick、物事を書く方法について「そんなに」議論があるとは思わない。私たちがあなたを助けようと試みたガイドラインは、「誰もがそうするなら、このサイトは非常に混乱し、従うのが難しいだろう」という方針に沿っています。これらのことについて多くの議論があるように思えるかもしれませんが、それはおそらくあなたが参加してから非常に活発な参加者だったというだけの理由でしょう。これについて詳しくお知りになりたい場合は、無関係な回答の下でコメントディスカッションではなく、メタでスレッドを開始することを検討してください:)
マクロ

あなたの例で均一な分布のサポートを広げるとどうなりますか?
Qbik

このサイトで経験を積んだので、簡潔かつ統合することが重要であることをマクロに同意する必要があります。
マイケルチャーニック

15

を避けたい状況の1つは重回帰であり、モデルに無関係な予測変数を追加するとR 2が増加する場合があります。これは、代わりに次のように計算された調整済みR 2値を使用することで対処できます。R2R2R2

ここで、nはデータサンプルの数、pは定数項をカウントしないリグレッサの数です。R¯2=1(1R2)n1np1np


21
R2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.