線形回帰における有意性の矛盾:係数の有意なt検定対有意でない全体的なF統計量


35

4つのカテゴリ変数(それぞれ4レベル)と数値出力の間に多重線形回帰モデルを当てはめています。データセットには43個の観測値があります。

回帰により、すべての勾配係数のから次の値が得られます:.15、.67、.27、.02。したがって、4番目の予測子の係数は、\ alpha = .05信頼レベルで有意です。pt.15.67.27.02α=.05

一方、回帰では、すべての勾配係数がゼロに等しいという帰無仮説の全体的なF検定からp値が得られます。私のデータセットでは、このp値は.11です。Fp.11

私の質問:これらの結果をどのように解釈すればよいですか?どのp値を使用する必要があり、その理由は何ですか?4番目の変数の係数は、\ alpha = .05信頼レベルで0と大きく異なりますか?α=.05

私は、関連する質問、見てきたFt回帰で統計を、しかし逆の状況があった:高t検定p -値と低F検定p -値が。正直なところ、線形回帰係数がゼロと有意に異なるかどうかを確認するために、tテストに加えてFテストが必要になる理由はよくわかりません。t


2
それぞれ4つのレベルを持つ4つのカテゴリ変数がある場合、独立変数(および切片)に3 * 4 = 12係数が必要です
...-boscovich

@andrea:それらを数値変数として扱うことにしました。
レオ

4
0.02はほとんど意味がなく(特に合計5つのテストがあるという事実を考慮すると)、0.11はそれほど高くありません。寛大な解釈は、もう少し力があれば、全体のF検定も重要になる(そしておそらく最初の係数も)と考えられます。より保守的な解釈は、これらの結果(0.02 p値の係数を含む)のいずれにもあまり自信を持ってはならないということです。どちらにしても、.02と.11。の違いをあまり読みすぎてはいけません。
ガラ

3
逆のケースの議論のために、あなたもここで見ることができます:回帰は重要ではまだ全ての予測は非有意することができますどのように上記のリンク問題に加えて、。
GUNG -復活モニカ

回答:


37

多重共線性がここで何が起こっているのかはわかりません。確かにそうかもしれませんが、与えられた情報から私はそれを結論づけることができません、そして、私はそこから始めたくありません。私の最初の推測は、これが多重比較の問題かもしれないということです。つまり、十分なテストを実行すると、たとえ何も存在しなくても、何かが表示されます。

私はハープことを課題の一つは、ということである多重比較の問題は常に、多くのペアごとの比較-などを検討するレベルのすべてのユニークなペアリングにt検定を実行しているという点で議論されています。(多重比較のユーモラスな治療のために、見てここに。)この葉の人々がそれが唯一のこの問題のショーを置くという印象で。しかし、これは単に真実ではありません。多重比較の問題はどこにでも現れます。。たとえば、4つの説明変数を使用して回帰を実行する場合、同じ問題が存在します。うまく設計された実験では、IVのは、直交することができますが、人々は日常先験的、直交コントラストのセットにボンフェローニ補正を使用して心配し、二回階乗ANOVAの程度とは思いません。私の考えでは、これは矛盾しています。

グローバルFテストは、「同時」テストと呼ばれるものです。これにより、すべての予測変数が応答変数に関連していないかどうかが確認されます。同時テストは、電力損失のあるボンフェローニルートに行くことなく、複数の比較の問題に対する保護を提供します。残念ながら、報告する内容の私の解釈では、あなたはヌルの発見をしているということです。

この解釈を緩和するものがいくつかあります。まず、43のデータしかないため、ほとんど確実に多くのパワーがありません。本当の効果がある可能性は十分にありますが、データがなければ解決することはできません。第二に、両方の@andreaと@Dimitriyのように、私は数値として4レベルのカテゴリ変数を処理することの妥当性を心配します。これは適切ではない可能性があり、実際に存在するものを検出する能力を低下させるなど、さまざまな影響を与える可能性があります。最後に、重要性テストが人々が信じているほど重要であるかどうかはわかりません。のあるの種類が低いです。本当にそこに何かが起こっていますか?多分!誰が知っていますか?—。05には、単なる外観から実際の効果を区別する「明るい線」はありません。 p.11


24

この現象(重要な個々の変数にもかかわらず重要でない全体テストの)は、一種の集約「マスキング効果」として理解でき、多共線の説明変数から生じる可能性があるが、そうする必要はないことを示唆したい。すべてのこと。また、複数の比較調整によるものでもないことがわかります。したがって、この答えは逆にどちらかの多重共または複数の比較が犯人と見しなければならないことを示唆している、すでに登場してきた答えにいくつかの資格を追加しています。

これらのアサーションの妥当性を確立するために、完全に直交する変数のコレクションを生成します-可能な限り非共線的である-と、明示的に最初の説明だけで明確に決定される従属変数(およびかなりの量のランダムエラー他のすべてから独立しています)。でR(あなたが実験したい場合は、再現性)このように行うことができます

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

説明変数がバイナリであることは重要ではありません。重要なのはそれらの直交性であり、コードが期待どおりに機能していることを確認するためにチェックできます。これは、それらの相関関係を調べることで実行できます。実際、相関行列は興味深いものです。小さな係数はy、最初の(設計による)以外の変数とはほとんど関係がないことを示し、非対角ゼロは説明変数の直交性を確認します。

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

のは、回帰のシリーズを実行してみましょう、最初の2、最初の変数を使用して、など。簡潔さと簡単な比較のために、それぞれ1で私が最初の変数と、全体的なF検定のための唯一の行を示しています。

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

最初の変数の意味はほとんどどのように変化するか(A)を見ては、( ')最初の変数が重要なままである(P <0.05)(多重比較のために調整した場合にも例えば、公称p値を乗じてボンフェローニを適用(b)最初の変数の係数はかろうじて変化しますが、(c)全体の有意性は指数関数的に増加し、有意でないレベルまで急速に膨らみます。

これは、従属変数からほとんど独立した説明変数含めると、回帰の全体的なp値を「マスク」できることを実証していると解釈します。 新しい変数が既存の変数と従属変数に直交している場合、個々のp値は変更されません。(に追加ランダム誤差があるため、ここで見られる小さな変化がありy、事故によって、少し他のすべての変数と相関している。)このことから描画するための一つの教訓は、ということです倹約は貴重である:使用して必要に応じていくつかの変数は、の重要性を強化することができますよう結果。

私はない、これは必ずしも少しは開示されているかについての問題のデータセット、のために起こっているという。しかし、このマスキング効果があるという知識できる起こり、結果の私達の解釈を知らせるだけでなく、変数選択とモデル構築のための私たちの戦略の必要があります。


+1、この分析に同意します。FWIWは、これは私が私の答えにパワーについての私の議論では(おそらくいないウェル)を示唆した説明である他の質問。私はあなたの誤差項の平均値として32を使用しない理由は、ここであなたのバージョンについて1つの質問があるのですか?それはタイプミスですか、それとも何らかの形で重要ですか?
グン-モニカの復職

@gung 32はどこにありますか?あなたが参照している場合はrnorm(2^p, sd=2)、してくださいノートの最初の引数は、項の数ではなく、平均値であること。デフォルトでは平均はゼロであるため、明示的に指定されていません。
whuber

rnorm()Nμσ

私は、コードを明確にするため、怒ら行を編集した機会に感謝@gung。
whuber

11

説明変数間で高度な共線性がある場合、これが頻繁に発生します。ANOVA Fは、すべてのリグレッサが共同で有益ないことを示す共同テストです。あなたのXは同様の情報が含まれている場合は、モデルは1つの回帰または別の説明力を属性することはできませんが、その組み合わせは、応答変数の変動の多くを説明することができます。

バツ1y


共線性が問題になる場合、標準誤差が大きくなり、係数が間違っている可能性があります。これは何が起こっているかであることを確認するために、あなたの回帰後に分散拡大要因(のVIF)を計算します。妥当な経験則は、最大VIFが10より大きい場合、共線性が問題になるということです。その場合、ここには2つのオプションがあります。一つは、あなたの変数の一部をドロップすることで、ほぼ線形依存を減らすためにモデルを再指定することです。第二は、より大きなおよび/またはより良好な(より均一な)サンプルを得ることです。
Dimitriy V. Masterov

1
(+1)この説明は良い説明ですが、現象を多重共線性に帰する必要はありません。重要な違いは、共同で情報を提供すること個別に情報を提供することです。 追加の非相関リグレッサ(多重共線性を回避する)を含めると、前者は低下しますが、後者は変化しません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.