多重線形回帰では、非常に有意なF統計量(p <.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか?
私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています
この問題に対処するには、次の質問を参照してください。
多重線形回帰では、非常に有意なF統計量(p <.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか?
私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています
この問題に対処するには、次の質問を参照してください。
回答:
Robが言及しているように、これは高度に相関する変数がある場合に発生します。私が使用する標準的な例は、靴のサイズから重量を予測することです。右または左の靴のサイズで同じように体重を予測できます。しかし、一緒にそれはうまくいきません。
簡単なシミュレーションの例
RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99
weights = 120 + rnorm(RSS, 10*RSS, 10)
##Fit a joint model
m = lm(weights ~ LSS + RSS)
##F-value is very small, but neither LSS or RSS are significant
summary(m)
##Fitting RSS or LSS separately gives a significant result.
summary(lm(weights ~ LSS))
これを引き起こすには、独立変数間の相関はほとんど必要ありません。
理由を確認するには、次を試してください。
50組の10個のベクトル、標準iidの係数で描画します。
y i = (x i + x i + 1)/ √を計算するのためのI=1、2、...、9。これにより、yiは個別に標準になりますが、それらの間には相関があります。
計算します。なお、W = √。
独立した正規分布エラーを追加します。少しの実験で、私はその見つかっzは= W + εとε 〜N (0 、6 )かなりうまく動作します。したがって、zはx iとエラーの合計です。また、y iの一部と同じエラーの合計です。
を独立変数、zを従属変数と見なします。
ここで、そのようなデータセットの散布行列だ上部と左側とに沿ってY iは順番に進みます。
間で期待される相関関係とのy jはある1 / 2 | i − j | = 1およびそれ以外の場合は0。実現される相関の範囲は最大62%です。これらは、対角線の隣のより密な散布図として表示されます。
y iに対するの回帰を見てください:
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
F統計量は非常に重要ですが、9つの変数すべてを調整しなくても、独立変数はどれも重要ではありません。
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
これらの変数の一部は、ボンフェローニ調整を行った場合でも非常に重要です。(これらの結果を見るともっと言えることがありますが、それは要点から離れてしまいます。)
これから導き出せる結論の1つは、モデルに含まれる変数が多すぎると、本当に重要な変数をマスクできるということです。この最初の兆候は、個々の係数のそれほど有意ではないt検定を伴う非常に有意な全体的なF統計量です。(変数のいくつかは、個別に重要である場合でも、これは自動的に他の人ではないという意味ではありませんそれは、ステップワイズ回帰戦略の基本的な欠陥の一つだ:。彼らは、このマスキング問題の犠牲になる。)尚、分散拡大要因最初の回帰範囲は2.55〜6.09で、平均は4.79です。最も保守的な経験則に従って、多重共線性を診断する境界線上にあります。他のルールに従ってしきい値を大幅に下回っています(10は上限カットオフです)。
これは、予測変数の相関が高い場合に発生します。非常に高い相関関係を持つ予測子が2つしかない状況を想像してください。個別に、両方とも応答変数と密接に相関しています。その結果、F検定のp値は低くなります(応答変数の変動を説明する上で予測子が非常に重要であると言われています)。ただし、他の予測子の効果を考慮した後、説明する余地があまりないため、各予測子のt検定のp値は高くなります。
検索するキーワードは、「共線性」または「多重共線性」です。これは、Belsley、Kuh、Welschによる教科書「回帰診断:影響力のあるデータと共線性の原因の特定」で説明されているように、Variance Inflation Factors(VIF)などの診断を使用して検出できます。VIFは理解がはるかに簡単ですが、インターセプトに関連する共線性(つまり、それ自体または線形結合でほぼ一定の予測変数)を処理できません-逆に、BKW診断は直観的ではありませんが、共線性を処理できます切片。
あなたが得る答えはあなたが尋ねる質問によって異なります。すでに作成されたポイントに加えて、個々のパラメーターF値とモデル全体のF値は異なる質問に回答するため、異なる回答が得られます。これは、個々のF値がそれほど大きくない場合でも、特にモデルに2つまたは3つ以上のIVがある場合に起こります。個々のp値を組み合わせて意味のあるものを取得する方法は知りませんが、方法はあります。
これを理解する1つの方法は、@ StasKが示唆する最小二乗のジオメトリです。
別の方法は、他の変数を制御するときにXがYに関連していることを意味しますが、単独ではありません。X はYの一意の分散に関連すると言います。これは正しいです。ただし、Yの一意の分散は合計分散とは異なります。それで、他の変数はどの分散を削除しますか?
変数を教えていただければ助かります。