この現象(重要な個々の変数にもかかわらず重要でない全体テストの)は、一種の集約「マスキング効果」として理解でき、多共線の説明変数から生じる可能性があるが、そうする必要はないことを示唆したい。すべてのこと。また、複数の比較調整によるものでもないことがわかります。したがって、この答えは逆にどちらかの多重共または複数の比較が犯人と見しなければならないことを示唆している、すでに登場してきた答えにいくつかの資格を追加しています。
これらのアサーションの妥当性を確立するために、完全に直交する変数のコレクションを生成します-可能な限り非共線的である-と、明示的に最初の説明だけで明確に決定される従属変数(およびかなりの量のランダムエラー他のすべてから独立しています)。でR
(あなたが実験したい場合は、再現性)このように行うことができます
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
説明変数がバイナリであることは重要ではありません。重要なのはそれらの直交性であり、コードが期待どおりに機能していることを確認するためにチェックできます。これは、それらの相関関係を調べることで実行できます。実際、相関行列は興味深いものです。小さな係数はy
、最初の(設計による)以外の変数とはほとんど関係がないことを示し、非対角ゼロは説明変数の直交性を確認します。
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
のは、回帰のシリーズを実行してみましょう、最初の2、最初の変数を使用して、など。簡潔さと簡単な比較のために、それぞれ1で私が最初の変数と、全体的なF検定のための唯一の行を示しています。
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
最初の変数の意味はほとんどどのように変化するか(A)を見ては、( ')最初の変数が重要なままである(P <0.05)(多重比較のために調整した場合にも例えば、公称p値を乗じてボンフェローニを適用(b)最初の変数の係数はかろうじて変化しますが、(c)全体の有意性は指数関数的に増加し、有意でないレベルまで急速に膨らみます。
これは、従属変数からほとんど独立した説明変数を含めると、回帰の全体的なp値を「マスク」できることを実証していると解釈します。 新しい変数が既存の変数と従属変数に直交している場合、個々のp値は変更されません。(に追加ランダム誤差があるため、ここで見られる小さな変化がありy
、事故によって、少し他のすべての変数と相関している。)このことから描画するための一つの教訓は、ということです倹約は貴重である:使用して必要に応じていくつかの変数は、の重要性を強化することができますよう結果。
私はない、これは必ずしも少しは開示されているかについての問題のデータセット、のために起こっているという。しかし、このマスキング効果があるという知識できる起こり、結果の私達の解釈を知らせるだけでなく、変数選択とモデル構築のための私たちの戦略の必要があります。