ペアワイズt検定のいずれも重要でない場合、ANOVAは重要ですか?


29

一方向(グループ、または「レベル」)ANOVAは、ペアワイズt検定のいずれも実行しない場合に有意差を報告することは可能ですか?N N 1 / 2N>2N(N1)/2

、この答え @whuberは書きました:

グローバルANOVA F検定は、平均のペアのいずれの個々の[未調整ペアワイズ] t検定も有意な結果をもたらさない場合でも、平均の差を検出できることはよく知られています。

どうやらそれは可能ですが、方法はわかりません。それはいつ起こり、そのようなケースの背後にある直感は何でしょうか?たぶん誰かがそのような状況の簡単なおもちゃの例を提供できますか?

さらなるコメント:

  1. 明らかに反対の可能性があります:全体的なANOVAは有意ではない場合がありますが、ペアワイズt検定のいくつかは誤って有意差を報告します(つまり、それらは偽陽性です)。

  2. 私の質問は、多重比較t検定の非調整標準に関するものです。調整されたテスト(たとえば、TukeyのHSD手順)が使用される場合、全体のANOVAが重要であっても、それらのどれも重要でないことが判明する可能性があります。ここでは、いくつかの質問で説明します。たとえば、全体的な有意なANOVAを得ることができますが、Tukeyの手順との有意なペアワイズ差はありません。および有意なANOVA相互作用、ただし有意でないペアワイズ比較

  3. 更新。私の質問はもともと、通常の2標本ペアワイズt検定に言及していました。ただし、@ whuberがコメントで指摘したように、ANOVAのコンテキストでは、t検定は通常、グループ内分散のANOVA推定値を使用して、すべてのグループにプールされた事後の対比として理解されます(2 -サンプルt検定)。したがって、実際には私の質問には2つの異なるバージョンがあり、両方の答えは肯定的であることがわかりました。下記参照。


3
あなたの質問は多くのスレッドでカバーされています:重要な回帰で私たちのサイトを検索してみてください。(ANOVAは最小二乗回帰のアプリケーションです。)たとえば、stats.stackexchange.com / questions / 14500 /…は、明示的な例と直感を提供します。これらを調査し、可能であれば以前のスレッドと区別するために質問を編集してください。
whuber

ありがとう、私はそれを見たことがありません。しかし、重回帰に関するこれらの説明をANOVA比較の言語に翻訳するのは本当に困難です。これはもちろん私自身の問題ですが、私は一人ではないのではないかと思うので、私の質問への回答はコミュニティにとってまだ役に立つでしょう。ここに私の混乱があります:誰かが左/右の靴のサイズ(2つの強く相関するIV)に重みを回帰する例を与えました=> F signif、t not。結構。現在、3グループのANOVA回帰では、2つのダミー IVがあります。彼らはダミーです=>常に完全に反相関しています...そしてそれで何ですか?
アメーバは、モニカを復活させる14

私はその最後の発言に従わないのではないかと心配しています。まず、この問題は必ずしも設計マトリックスの強い相関関係とは関係ありません。第二に、ダミーは「完全に反相関」していません。もしそうであれば、ソフトウェアはいずれかを削除しなければなりません。おそらく、より複雑なANOVAモデルの微妙な問題に言及しているのかもしれません。
whuber

@amoeba:ダミー変数は負の相関があります。
マイケルM 14年

3
私はあなたの「さらなる発言」に例外を取ります。1.ペアワイズ比較が非常に有意であり、有意でないFがあるため、それらの有意な結果が偽陽性であることを意味しません。何かが偽陽性であることを確実に知るためには、実際の平均、muに違いがないことを知る必要があります。F統計は神聖ではありません。実際、必須ではありません。これはモデルの選択に最も役立ちますが、それを超えて、データで具体的に何が行われているのかを知ることはほとんどありません。
rvl 14

回答:


18

注:私の元の例には何か問題がありました。私は愚かなことに、Rの静かな議論のリサイクルに巻き込まれました。私の新しい例は私の古い例に非常に似ています。うまくいけば、すべてが今です。

5%レベルで有意なANOVAを持っているが、5%レベルでも6つのペアワイズ比較のどれも有意ではない例を作成しました

データは次のとおりです。

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

ここに画像の説明を入力してください

ANOVAは次のとおりです。

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

2つのサンプルt検定p値(等分散の仮定)は次のとおりです。

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

グループ平均または個々のポイントを少しいじると、有意差がより顕著になります(最初のp値を小さくし、t検定の6つのp値のセットの最低値を高くすることができます) )。

-

編集:トレンドに関するノイズを元に生成された追加の例を次に示します。これは、ポイントを少し動かした場合にどれだけ改善できるかを示しています。

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

Fのp値は3%未満であり、tのいずれも8%未満のp値を持ちません。(3グループの例の場合-ただし、Fのp値が多少大きい場合-2番目のグループは省略します)

そして、これは3つのグループを使用した、より人工的な、非常に単純な例です。

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(この場合、最大の分散は中央のグループにありますが、サンプルサイズが大きいため、グループ平均の標準誤差はさらに小さくなります)


多重比較t検定

whuberは、多重比較のケースを検討することを提案しました。それは非常に興味深いことがわかります。

複数の比較のケース(すべて元の有意水準で行われます-つまり、複数の比較のためにアルファを調整しない)は、異なるグループでより大きな分散とより小さな分散またはより少ないdfで遊んでは役に立たないため、達成するのがやや困難です通常の2標本t検定と同じ方法で。

ただし、グループの数と有意水準を操作するツールはまだあります。より多くのグループとより小さい有意水準を選択すると、ケースを識別するのは比較的簡単になります。以下がその1つです。

8つのグループを取ります。最初の4つのグループの値を(2,2.5)に、最後の4つのグループの値を(3.5,4)に定義し、(たとえば)を取り ます。次に、重要なFがあります。α = 0.0025ni=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

しかし、ペアワイズ比較の最小のp値は、そのレベルでは重要ではありません。

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
2サンプルのt検定は、回帰のペアワイズ検定とは異なります。違いは、残差分散の推定にあります。したがって、あなたの例は実際にはより強いパラドックスの例ではありません。つまり、同一の回帰分析内でF検定は有意であり、そのペアワイズ比較は有意ではないということです。このパラドックスは、不均一分散から必ずしも生じるものではないと考えています。すべてのグループ分散が等しい場合でも、このパラドックスが現れる可能性があります。
whuber

4
さらに興味深いのは、F検定がnullを拒否できるが、ペアワイズt検定のいずれも同じ有意水準で拒否できない場合に対処することです(F検定と同じ誤差分散推定を使用して)。たとえば、サンプルサイズが等しい3つのグループの場合、ペアワイズt検定の5%棄却域の和には、サンプルサイズが非常に大きくなっても、ANOVAR F検定の5%棄却域が含まれます。
Scortchi-モニカの復職

4
@Scortchi:(+1)コメントに。何年も前に、テストのレベルが非常に小さくない限り、3グループのケースでは実際に不可能であることを思い出しました(思い出すと未満)。分子の自由度が異なる累積分布の比率の関係に帰着し、固定レベルと固定分母の自由度で評価されます。F0.005F
枢機

4
アメーバ、混乱は、「ペアワイズt検定」が2つのことを意味するという事実から生じます。ANOVAのコンテキストでは、通常、ANOVA推定を使用して事後のコントラストを意味すると理解されます。他の人が指摘したように、ANOVAバージョンはすべてのグループから導出されたグループ内分散の推定に基づいているため、これはグループのペアで通常のt検定を実行することと同じではありません。
whuber

2
あなたは良いまとめをしたと思います。すべてのテストが単一のANOVA分析のフレームワーク内で実行される場合、それらが内部的に一貫していると(単純に)期待するという意味で、パラドックスを「より強力」と呼びました。(本質的に関連のない2組のテストを実行する場合、矛盾する結果が出ても驚くことではありません。これは頻繁に起こります。)そのグループを結論付けることは論理的に一貫し、統計的に有効であることグループの特定のペア間で違いを見つけない間、平均は大きく異なります。
whuber

4

要約:これは可能だと思いますが、非常にありそうもないことです。差は小さくなりますが、それが発生した場合は、仮定に違反しているためです(分散の等分散性など)。

そのような可能性を探るコードを次に示します。実行するたびにシードが1ずつ増加するため、シードは保存されます(シードを介した検索は体系的です)。

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

重要なR2を検索し、重要でないt検定を検索していませんが、18,000のシードまでは何も見つかりませんでした。t検定よりもR2から低いp値を検索すると、シード= 323で結果が得られますが、その差は非常に小さいです。パラメーターを調整する(グループの数を増やす?)ことが役立つ場合があります。R2のp値を小さくできる理由は、回帰のパラメーターの標準誤差を計算すると、すべてのグループが結合されるため、差の標準誤差がt検定よりも小さくなる可能性があるためです。

異分散性に違反することは(それがそうであったように)助けになるのではないかと思いました。します。私が使用する場合

y <- (rnorm(600) + x * 0.01) * x * 5

yを生成するには、シード= 1889で適切な結果を見つけます。ここで、t検定からの最小p値は0.061で、R 2乗に関連付けられたp値は0.046です。

xサンプリングを次のように置き換えて、グループサイズを変更すると(不均一分散の違反の影響が大きくなります)、

x <- sample(c(0:5), 100, replace=TRUE)

seed = 531で重要な結果が得られ、最小t検定のp値は0.063、R2のp値は0.046です。

以下を使用して、t検定で不均一分散の補正を停止した場合:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

私の結論は、これが起こる可能性は非常に低く、回帰における同分散性の仮定に違反していない限り、差は非常に小さい可能性が高いということです。ロバスト/サンドイッチ/何でも修正と呼んで分析を実行してみてください。


「t検定で不均一分散の補正を停止した場合」で始まる未完成の文があるようです。それとは別に、どうもありがとう!質問の更新をご覧ください。また、ここで@whuberの最初のコメントに注意してください。私が正しく理解していれば、彼はそのような状況は簡単に(?)起こり得ると主張します(そして、それを「よく知られている」と呼びます)。ここに誤解があるかもしれませんが、それは何ですか?
アメーバは、モニカを復活させる14

@whuberは、有意でないt検定ではなく、モデル内の有意でないパラメーターについて話していると思います。
ジェレミーマイルズ14年

いいえ、彼は違います。それがよく知られている場合、私はそれを知らないし、私は例を考え出そうとしたができない。
ジェレミーマイルズ14年

1
@Glen_bが簡単な例を作成してくれて嬉しいです。直観は、全体的なテストは、グループ平均の広がりが残差分散だけでは合理的に説明できないという証拠があるかどうかを評価することです。一度に2つの手段のみを含むペアワイズテストは、同じ証拠を評価する際にかなり保守的でなければなりません。したがって、2つの極端なグループ平均を比較しても、すべての平均の全体的な分布が重要である場合、重要な違いを明らかにできない可能性があります。これは、実際には、特に多数のグループで時々発生します。
whuber

3
ところで、これを「よく知られている」と呼ぶ理由は、Systatソフトウェアマニュアルで警告されたという私の記憶から生じています。1989年。非常に有益なマニュアルであり(そのほとんどは開発者のLeland Wilkinsonによって個人的に書かれた)、おそらくまだそうです。マニュアルはオンラインですが、ダウンロードするにはSystatサイトに登録する必要があります。
whuber

2

それは完全に可能です:

  • 1つ以上のペアワイズt検定は重要ですが、全体的なF検定は重要ではありません
  • 全体的なF検定は重要ですが、ペアワイズt検定はいずれも重要ではありません

全体的なFテストでは、すべてのコントラストが同時にテストされます。そのため、個々のコントラストに対する感度(統計的検出力が低い)でなければなりません(例:ペアワイズ検定)。2つのテストは互いに密接に関連してますが、まったく同じことを報告していません

ご覧のとおり、全体的なF検定が有意でない限り、計画された比較を行わないという教科書の推奨事項は必ずしも正しいとは限りません。実際、全体的なFテストは特定の違いをテストするための計画された比較よりも電力が少ないため、この推奨事項によって大きな違いを見つけることができない場合があります。


私はあなたの答えの論理に従うかどうかわかりません。F検定によるH0の拒否は、少なくとも1つの非ゼロコントラストがあることを意味しますが、このコントラストはペア比較のいずれにも対応しない可能性があると言っていますか?もしそうなら、これはF検定がH0を拒否した場合、可能なすべてのコントラストにわたるペアワイズ検定の少なくとも1つも拒否につながることを意味しますか?
アメーバは、モニカを復活させる

@amoeba回答を編集しました。
-SmallChess
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.