有意なF統計量(p <.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?


70

多重線形回帰では、非常に有意なF統計量(p <.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか?

私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています


この問題に対処するには、次の質問を参照してください。


2
定数も重要ではありませんか?何件のケースが関係していますか?変数はいくつありますか?
whuber

多重共線性はどのように診断されましたか?多くの方法があり、一部は他の方法よりも有益です。あなたが私たちに語るほど、コミュニティはよりよく答えることができます。
StasK

3
この質問はFAQになりました。ここでの回答のいくつかは、実質的に同様のスレッドからマージされました。
whuberの


私は同じ問題を抱えていて、上記の答えのどれもが私を助けることができました。今、私は答えを知っています(少なくとも私の問題に対する):モデル1と同じ「定数」(変数)を取得したため、モデル2のF値は重要になる可能性があります(F値も重要です)。「Sig。」列の「Model Summary」という表を見る必要があります。Fの変更」を使用して、Rの2乗の変化が有意かどうかを確認します(モデル2の場合)。その値が重要な場合、b値も重要なはずです。F値は完全に無視できます。

回答:


53

Robが言及しているように、これは高度に相関する変数がある場合に発生します。私が使用する標準的な例は、靴のサイズから重量を予測することです。右または左の靴のサイズで同じように体重を予測できます。しかし、一緒にそれはうまくいきません。

簡単なシミュレーションの例

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

9
この場合、両方のモデルが同じようにうまく予測することに注意することは興味深いことです。予測子間の高い相関は、必ずしも予測の問題ではありません。多重共線形性は、1)アナリストが複数の回帰係数を不適切に解釈しようとした場合にのみ問題になります。2)モデルは推定不可能です。および3)SEは膨張し、係数は不安定です。
ブレット

2つの変数は互いに強く相関しているため、t検定の結果は重要ではなく、F検定の結果は重要であることを理解しています。しかし、どうしてこれが起こるのでしょうか?つまり、この事実の根底にある理由は何ですか?
yue86231 14年

105

これを引き起こすには、独立変数間の相関はほとんど必要ありません。

理由を確認するには、次を試してください。

  • 50組の10個のベクトル、標準iidの係数で描画します。バツ1バツ2バツ10

  • y i = x i + x i + 1/ √を計算するのためのI=12...9。これにより、yiは個別に標準になりますが、それらの間には相関があります。y=バツ+バツ+1/2=129y

  • 計算します。なお、W = w=バツ1+バツ2++バツ10w=2y1+y3+y5+y7+y9

  • 独立した正規分布エラーを追加します。少しの実験で、私はその見つかっzは= W + εε N 0 6 かなりうまく動作します。したがって、zx iとエラーの合計です。また、y iの一部と同じエラーの合計です。wz=w+εεN06zバツy

を独立変数、zを従属変数と見なします。yz

ここで、そのようなデータセットの散布行列だ上部と左側とに沿ってY iは順番に進みます。zy

散布図行列

間で期待される相関関係のy jはある1 / 2 | i j | = 1およびそれ以外の場合は0。実現される相関の範囲は最大62%です。これらは、対角線の隣のより密な散布図として表示されます。yyj1/2|j|=10

y iに対するの回帰を見てください:zy

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

F統計量は非常に重要ですが、9つの変数すべてを調整しなくても、独立変数はどれも重要ではありません

zy

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

これらの変数の一部は、ボンフェローニ調整を行った場合でも非常に重要です。(これらの結果を見るともっと言えることがありますが、それは要点から離れてしまいます。)

zy2y4y6y8z

y

これから導き出せる結論の1つは、モデルに含まれる変数が多すぎると、本当に重要な変数をマスクできるということです。この最初の兆候は、個々の係数のそれほど有意ではないt検定を伴う非常に有意な全体的なF統計量です。(変数のいくつかは、個別に重要である場合でも、これは自動的に他の人ではないという意味ではありませんそれは、ステップワイズ回帰戦略の基本的な欠陥の一つだ:。彼らは、このマスキング問題の犠牲になる。)尚、分散拡大要因最初の回帰範囲は2.55〜6.09で、平均は4.79です。最も保守的な経験則に従って、多重共線性を診断する境界線上にあります。他のルールに従ってしきい値を大幅に下回っています(10は上限カットオフです)。


5
素晴らしい答え。私からのプラス1。もっとあげたいと思いました。
マイケルチャーニック

41

多重共線性

  • R2
  • もちろん、多重共線性は単なる絶対しきい値ではありません。フォーカルプレディクターとの相互相関が増加すると、回帰係数の標準誤差が増加します。

複数のほぼ有意な予測因子

  • 多重共線性がなくても、2つ以上の個々の予測子が有意に近いため、全体として予測が統計的有意性のしきい値を超える場合、非有意な予測子および全体的に有意なモデルを取得できます。たとえば、0.05のアルファを使用して、p値が.06および.07の2つの予測変数があった場合、モデル全体のp <.05があったとしても驚かないでしょう。

すてきな簡潔な答え。これに追加するには、データを摂動(または予測子を削除)し、回帰の係数に顕著な変化があるかどうかを確認することをお勧めします。たとえば、符号の変更に注意してください。
ムスタファSエイサー

38

これは、予測変数の相関が高い場合に発生します。非常に高い相関関係を持つ予測子が2つしかない状況を想像してください。個別に、両方とも応答変数と密接に相関しています。その結果、F検定のp値は低くなります(応答変数の変動を説明する上で予測子が非常に重要であると言われています)。ただし、他の予測子の効果を考慮した後、説明する余地があまりないため、各予測子のt検定のp値は高くなります。


こんにちは、ロブ、ご迷惑をおかけして申し訳ありません。私はあなたの答えを読みました(私は今、質問の状況に直面しているためです)が、「他の予測子の効果を考慮に入れた後、説明する余地はあまりない」と言ってあなたの意味を理解できません。それを私に説明してもらえますか?どうもありがとう。
yue86231 14年

1
@ yue86231各予測子に対して1つのp値がありますが、各p値を単独で解釈することはできません。各予測子t検定は、他のすべての変数によって説明される分散を考慮した後にのみ、変数の有意性を表示できます。線形回帰係数と標準誤差は、いわば同時に生成され、2つの予測子は互いに有意性を低下させます。
ロバートキューブリック14

11

バツ1N01バツ2=aバツ1+δY=bバツ1+cバツ2+ϵδϵバツ1N01

Covバツ2Y=E[aバツ1+δbバツ1+cバツ2+ϵ]=E[aバツ1+δ{b+ac}バツ1+cδ+ϵ]=ab+ac+c

a=1b=2c=1

あなたは、変数が相関し、回帰が重要でないという問題をよりよく理解していると言った。おそらく、多重共線性について頻繁に言及することによって条件付けられていることを意味しますが、最小二乗の幾何学の理解を高める必要があります。


10

検索するキーワードは、「共線性」または「多重共線性」です。これは、Belsley、Kuh、Welschによる教科書「回帰診断:影響力のあるデータと共線性の原因の特定」で説明されているように、Variance Inflation Factors(VIF)などの診断を使用して検出できます。VIFは理解がはるかに簡単ですが、インターセプトに関連する共線性(つまり、それ自体または線形結合でほぼ一定の予測変数)を処理できません-逆に、BKW診断は直観的ではありませんが、共線性を処理できます切片。


9

あなたが得る答えはあなたが尋ねる質問によって異なります。すでに作成されたポイントに加えて、個々のパラメーターF値とモデル全体のF値は異なる質問に回答するため、異なる回答が得られます。これは、個々のF値がそれほど大きくない場合でも、特にモデルに2つまたは3つ以上のIVがある場合に起こります。個々のp値を組み合わせて意味のあるものを取得する方法は知りませんが、方法はあります。


2
(-1)はい-元のポスターは、彼/彼女もそれが起こるのを見たことを指摘しています。問題は、共線性以外にこれを引き起こす可能性のあるものが何であるかであり、これがどのように答えであるかわかりません。
マクロ

4
@Macroこの回答には有用で有効な観察結果があるため、ダウンボートは少し厳しいようです。全体的な有意性と個々の変数の有意性のテストは「異なる質問に答えます」。確かにそれは定性的ですが、多くの賛成票による最初の答えではありません。そして、その答えにいくつかの有効な直観を追加し、間違いなくその答えを改善しています。
whuberの

1
この返信では、有効な情報や直感が提供されていないとは言いませんでした。この質問に対して良い答えがあったなら、今までに答えたでしょう-それは一種の難しい質問です-私はこの応答が言葉の意味で質問に答えていないようだと言っていました。
マクロ

9

留意すべきもう1つのことは、個々の係数のテストはそれぞれ、他のすべての予測子がモデル内にあると仮定することです。言い換えると、他のすべての予測変数がモデル内にある限り、各予測変数は重要ではありません。2つ以上の予測子の間には、何らかの相互作用または相互依存関係がなければなりません。

他の誰かが上で尋ねたように-多重共線性の欠如をどのように診断しましたか?


4

これを理解する1つの方法は、@ StasKが示唆する最小二乗のジオメトリです。

別の方法は、他の変数を制御するときにXがYに関連していることを意味しますが、単独ではありません。X はYの一意の分散に関連すると言います。これは正しいです。ただし、Yの一意の分散は合計分散とは異なります。それで、他の変数はどの分散を削除しますか?

変数を教えていただければ助かります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.