ANOVAのテストの


13

イントロ:この質問で、今日受け取っ注意を指摘した、「?ペアワイズt検定のいずれでもないとき缶ANOVAが重要である、」私は答えの独自のセットに値するだろう面白い方法でそれをリフレームすることができるかもしれないと思いました。

統計的有意性が単純な二分法として理解され、より高い基準に基づいて判断される場合、または場合、さまざまな不整合な結果(額面)が発生する可能性があります。上記の質問に対する @Glen_bの回答は、次の場合の有用な例を示しています。P αpα

  • ANOVA F検定Fは、4つのレベルを持つ1つの独立変数(IV)に対してp F < .05pF<.05を生成しますが、
  • IVの4つのレベルの各ペアに対応する観測値間で、同じ従属変数(DV)の差を比較するpt>.08すべての2サンプル tt検定で p t > .08

この質問による事後のペアワイズ比較のボンフェローニ補正にもかかわらず、同様のケースが発生しました:Anovaの反復測定は重要ですが、ボンフェローニ補正とのすべての多重比較はそうではありませんか?重回帰のテストがわずかに異なる前述のケースも存在します。

私は賭けてこのような場合には、ことをいくつかの(すべてではない)ペアごとの比較(または回帰係数有意性検定)のpp値はかなり近いでなければならないαα対応オムニバステストが達成できるかどうかのp < αをp<α。私は、これがGlen_bの最初の例@における場合であり、参照F 3 20 = 3.19F(3,20)=3.19P F = 0.046pF=.046、及び最大ペアワイズ差が最小与えるのP T = 0.054をpt=.054。これは一般的に当てはまるのでしょうか?より具体的に


質問: ANOVA F検定が連続DVに対する1つのポリトマスIVの効果に対してp F = .05を生成する場合、IVのレベルの各ペアを比較するすべての2サンプルt検定の中で最低のpはどれくらい高いでしょうか?最小のペアワイズ有意性はp t = .50と同じくらい高いでしょうか?FpF=.05ptpt=.50


この特定の質問のみを扱った回答を歓迎します。ただし、この質問をさらに動機付けるために、いくつかの潜在的な修辞的な質問を詳しく説明します。これらの懸念に対処することも歓迎します。必要に応じて、特に特定の質問が最終的な回答を得る場合は、特定の質問を無視することもできます。

意義:統計的有意性が帰無仮説に対する証拠の強さの連続的な観点で判断された場合、p F = .04p t = .06の違いがどれほど重要でないかを考慮してください(Ron Fisherのアプローチ、私は思う? )、null卸売りを拒否するかどうかを選択する際に許容されるエラーの確率について、α = .05のしきい値を上回ったり下回ったりするなど、二項ではありません。「p -hacking」は、pの解釈によって導入された不必要な脆弱性に悪名を部分的に負っている既知の問題ですpF=.04pt=.06α=.05pp「十分」と「十分ではない」の同等物に重要性を二分する一般的な慣行による値。この慣習を破棄し、代わりにp値を連続間隔でのnullに対する証拠の強さとして解釈することに焦点を合わせた場合、オムニバステストは、複数のペアワイズ比較を本当に気にするときに、それほど重要ではないでしょうか?統計的精度の合理的に効率的な改善がもちろん望ましいので、必ずしも役に立たないわけではありませんが、...例えば、最低のペアワイズ比較のp値が必然的にANOVA(または他のオムニバステスト)pの.10以内にある場合pp.10p特に、複数のテストでαを特に制御したくない場合、これにより、オムニバステストがやや簡単になり、強制的でなくなり、さらに誤解を招くようになりませんか(既存の誤解と併せて)?α

逆に、オムニバスp = .05であるが、すべてのペアワイズp > .50のようなデータが存在する可能性がある場合、これはオムニバスをさらに動機付け、練習および教育学全体でのテストのコントラストを高めるべきではないでしょうか?この問題は、二分法対連続法に従って統計的有意性を判断する相対的なメリットを知らせるべきであるように思われます。この差/調整が非常に大きくなる可能性がある場合(たとえば、p tp F >p=.05p>.50.40 理論上。ptpF>.40)

考慮または無視するその他のオプションの複雑さ- 回答をより簡単で価値のあるものにするもの

  • どのように高いのpのためのトンのため、場合秒かもしれませんpt F P < 0.05の代わりに(例えば、 P = 0.01 0.001 ...Fp<.05p=.01,.001,
  • ポリトーマスIVのレベル数に対する感度
  • ペアワイズ差の有意性の不均一性に対する感度(すべてのp t > p Fpt>pF
    • whuberの答えは、小さな違いを含めると大きな違いを隠すことができることを示しています。
  • 複数の比較のためのさまざまなオムニバステストの修正の違い
  • データが従来のパラメトリックテストのすべての仮定を最適に満たす制限されたケース
    • この制限は、この質問が多少無意味になるのを防ぐために重要かもしれません。

1
ペアワイズt検定でオムニバスF検定と同じ誤差分散推定を使用する必要があるかどうかを明確にしたい場合があります(グレンの例では使用していません)。
Scortchi-モニカの復職

1
私が使用して平均の差のために、通常のt検定意味Tは= ˉ Y 1 - ˉ Y 2/ σ1n 1 + 1N 2、しかしとσANOVAR平均二乗誤差の平方根として計算されます。これは、通常の事後のペアワイズt検定であり、TukeyのHSDとは異なり、複数の比較に対して調整しません。すべてのグループからの情報を取り込みますが、グループの平均の違いには依存しません。t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi -復活モニカ

1
なるほど(ちょっと)!私は主に@Glen_bの例をフォローし、を使用しないことに興味がありますMSE、ただし、すべてのグループからの情報が組み込まれないように、最初に述べた式を使用します。それは私がここで強い好みを持っていると言うことではありません...しかし、私の当初の意図の一部は、これらの質問で共通のテーマの変形を提示することでした:多くの人の間で2サンプルテスト?」この決定においてもテーマはやりがいがあると思います。MSE
ニックスタウナー

1
@Scortchi最初のコメントをカバーする他の質問(つまり、一般的な誤差分散とdfを使用してテストが行​​われる場合)に例を含めましたが、すべてのテスト(Fおよび多重比較)はかなり低い有意レベルで行われます(0.05ではなく0.0025)。ここでニックS.が求めている個々の通常の2標本t検定と比較すると、有意差がかなり大きくなる可能性があることがわかります(この場合、すべての通常のt検定でp t > .05、まだp F < 0.002)。多くのグループでは、さらに先へ進むことができると信じています。pt>.05pF<0.002
Glen_b -Reinstateモニカ

1
数分前に、stats.stackexchange.com / questions / 83030 /…のコメントで、この質問の最初の部分に対する回答をスケッチしました
whuber

回答:


8

一方向レイアウトの各処理に対して等しいn s(ただし、以下の注2を参照)、およびすべてのグループからプールされたSDがtテストで使用されると仮定します(通常の事後比較で行われます)。Pののt検定は、2 Φ - ntpt20.1573(ここで、Φは意味N01)CDFを。したがって、pt0.5になることはありません。興味深いことに(そして奇妙なことに).1573の限界はpF=.05だけではなく、2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05 Fます。F

正当化は次のとおりです。サンプル平均の所定の範囲、max i j | ˉ Y I - ˉ Y J | = 2 alargest y iの半分が一方の端にあり、もう半分がもう一方の端にあるときに、可能な最大のF統計量が達成されます。これは、2つの平均の差が最大で2 aであるため、Fが最も重要に見えるケースを表します。maxi,j|y¯iy¯j|=2aFy¯iF2a

したがって、一般性を失うことなく、that yであると仮定します。= 0ようˉ Y iは = ±この境界場合。そして再び、一般性を失うことなく、その仮定M S E = 1、我々は常にこの値にデータを再スケールすることができて、。今検討k個(ただし手段kがあっても簡単にするためである[なく下に注記1を参照])、我々は、F = Σ N ˉ Y 2 /K - 1 y¯.=0y¯i=±aMSE=1kkM S E =kna2K - 1。設定PF=αとなるようにF=Fα=FのαK-1KN-1、我々は入手=をF=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)K - 1 F αk n。場合すべてˉYiがあり±(まだMSE=1)、それぞれの非ゼロのt統計量は、このようにある、T=2Aa=(k1)Fαkny¯i±aMSE=1t1 2 / n =2 K - 1 F αk。これは最小最大でTの値が可能な場合F=Fαt=2a12/n=2(k1)FαktF=Fα

したがって、knの異なるケースを試して、tとそれに関連するp tを計算するだけです。しかし、所与のために通知することをKFはαはあるが減少N [なく下に注3を参照]。また、としてN K - 1 Fのα K - 1 K N - 1 χ 2 α K - 1。そうトンkntptkFαnn(k1)Fα,k1,k(n1)χ2α,k1t m i n = 2 χ 2 α K - 1 / K。なお、χ2/K= K - 1ttmin=2χ2α,k1/kK χ2/K-1平均有するKを-1χ2/k=k1kχ2/(k1)kおよびSDk1k1kK2K - 1。そうLIMK、T、M、I、N=k1k2k12αに関係なく、上記の最初の段落で述べた結果は漸近正規性から得られます。limktmin=2α

ただし、その制限に達するには長い時間がかかります。α = .05を使用してRkのさまざまな値の結果(を使用して計算)を以下に示します。kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

いくつかのルーズエンド...

  1. kが奇数の場合:最大Fの統計はまだ発生した場合ˉ Y iが全てである±。しかし、我々は平均作り、より範囲の一端で一方が他方よりを持っています± / kは、あなたが要因のことを示すことができるKにおけるFの統計が置き換えられているK - 1Fy¯i±a±a/kkFk。これはまた、tの分母を置き換え、わずかに大きくし、したがってptを減少させます。k1ktptます。
  2. 不等N S:n最大Fが依然として用いて達成されるˉ Y iは = ±符号はほぼ同様に可能な限りサンプルサイズのバランスをとるように配置して、。次に、同じ合計サンプルサイズN = n iF統計量は、バランスのとれたデータの場合と同じか、それより小さくなります。さらに、最大t統計量は、最大のn iを持つものになるため、より大きくなります。したがって、より大きなp tを取得することはできませんFy¯i=±aFN=nitnipt、不均衡なケースを調べても、値を。
  3. 若干の修正:私は最小見つけることを試みに焦点を当てたトン私たちは最大限にしようとしているという事実見落としていることのp トンを、そして、大きなことをあまり明らかであるトン少ないDFとのより小さいそれほど重要ではありませんより多くのdfを持つもの。しかし、私はこの値を計算することによってケースであることが確認され、N = 2 3 4 ... DFまで少し違いを作るために十分高いです。場合についてα = 0.05 K 3私はここで、任意のケースを見ていないのP T N。ことに注意してくださいtpttn=2,3,4,α=.05,k3pt値で増加しませんでしたn dはF = K N - 1 可能DFそうである K 2 K 3 K ...ときに大きな高速を得る kが大きいです。それで、私はまだ上記の主張で安全な立場にいます。また、 α = .25をテストし、 0.1573のしきい値を超えた唯一のケースは k = 3 n = 2でした。df=k(n1)k,2k,3k,kα=.25.1573k=3,n=2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.