ANOVAで等分散性の仮定に違反したときに発生する可能性がある最悪の事態は何ですか?


8

これは、この投稿を確認した後のフォローアップの質問です。違いは、非正規の異分散データの統計的検定を意味しますか?

明確にするために、私は実用的な観点から質問しています(理論的な応答が歓迎されないことを示唆するものではありません)。グループ間に正常性存在します(上記の質問のタイトルとは異なります)、グループの差異が実質的に異なる場合、研究者が観察する可能性のある最悪の事態は何ですか?

私の経験では、このシナリオで最も発生する問題は、事後比較の「奇妙な」パターンです。(これは私の公開された作品と教育環境の両方で観察されています...以下のコメントでこれの詳細を提供してうれしいです。)私が観察したのはこれに似たものです: 3つのグループがあります。(オムニバス)ANOVAはを与え、ペアワイズ検定はが他の2つのグループと統計的に有意に異なることを示唆しています...しかしとM1<M2<Mp<αtM2M1M統計的に有意差はありません。私の質問の一部は、これが他の人が観察したものであるかどうかですが、比較可能なシナリオで他にどのような問題を観察しましたか?

私の参照テキストを簡単に確認すると、ANOVAは、等分散性の仮定の軽度から中程度の違反に対してかなり堅牢であり、サンプルサイズが大きい場合はさらに強固であることがわかります。ただし、これらのリファレンスでは、(1)何が問題になるか、または(2)多数のグループで何が発生するかを具体的に述べていません。


1
元の質問へのリンクが表示されない(プレーンテキストとしてのみ表示される)理由がわかりません...また、別の質問では、タイトルに「通常ではない」と表示されていますが、ディスカッションは通常のデータに関するものです
Gregg H

これは、質問にHTMLが含まれているためです。書式設定ツールバーにある書式設定オプションを使用するだけで、すべてが正しく書式設定されます。
Sycoraxは19:41にモニカを

2
あなたはasupernovaを取得します
user541686

回答:


5

一般的な線形モデルに基づく平均のグループ比較は、分散の均一性の仮定の違反に対して一般にロバストであるとしばしば言われます。そここれは間違いなくそうではありませんその下で一定の条件では、しかし、であり、比較的簡単なものは、分散の仮定の均質性に違反している状況である、あなたはグループサイズの格差を持っています。この組み合わせにより、グループ全体の分散とサンプルサイズの差異の分布に応じて、タイプIまたはタイプIIのエラー率が増加する可能性があります

値の一連の簡単なシミュレーションで、その方法を示します。最初に、nullがtrueで、分散の均一性の仮定が満たされ、グループサイズが等しい場合に、分布の値がどのように見えるかを見てみましょう。2つのグループ(xy)の200個の観測値の等しい標準化されたスコアをシミュレートし、パラメトリック実行して、結果の値を保存します(これを10,000回繰り返します)。次に、シミュレートされた値のヒストグラムをプロットします。pptpp

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

ここに画像の説明を入力してください

値の分布は、本来あるべきように比較的均一です。しかし、グループyの標準偏差をグループxの5倍にするとどうなるでしょうか(つまり、分散の均一性に違反します)。p

ここに画像の説明を入力してください

まだかなり均一。しかし、分散の仮定の違反した均質性をグループサイズの不均衡と組み合わせると(グループxのサンプルサイズを20に減らす)、大きな問題にぶつかります。 ここに画像の説明を入力してください

一方のグループの標準偏差が大きく、もう一方のグループサイズが小さいと、タイプIのエラー率はかなり劇的に大きくなります。しかし、両方の格差は逆の方向にも機能します。代わりに、nullがfalse(グループxの平均が0ではなく.4)である母集団を指定し、1つのグループ(この場合、グループy)の標準偏差とサンプルサイズが大きい場合、そうすれば、実際の効果を検出する能力を実際に傷つけることができます。

ここに画像の説明を入力してください

要約すると、グループサイズが比較的等しい場合、分散の均一性は大きな問題ではありませんが、グループサイズが等しくない場合(準実験的研究の多くの領域にある可能性があるため)、分散の均一性はタイプIを実際に膨らませる可能性がありますまたはIIエラー率。


4

グレッグ、あなたは通常の異分散データを意味しますか?あなたの2番目の段落はそれを示唆しているようです。

あなたが参照した元の投稿に回答を追加しましたが、データが正常であるが異分散である場合、一般化された最小二乗法を使用すると、言及するデータ機能を処理するための最も柔軟なアプローチが得られると提案しました。これらの機能を明示的に考慮しないと、ご自身の実務で気づいたように、次善の結果となり、誤解を招く可能性があります。結果が次善または誤解を招く可能性があるかどうかは、最終的には各データセットの特性によって異なります。

これを理解する良い方法は、2つの要因を変えることができるシミュレーションスタディを設定することです。グループの数と、グループ間で変動が変化する程度です。次に、標準のANOVA(異分散性を無視する)とgls(これにより、異分散性)。

おそらく、最初の2つのグループの変動性を同じに保ちながら、3番目のグループの変動性を係数fだけ変更して、fが次第に大きくなる単純な例で、シミュレーション演習を開始できます。これにより、その3番目のグループが結果を支配し始めるかどうか、およびいつ開始するかを確認できます。(簡単にするために、3つのグループのそれぞれの平均結果値の差は同じに保つことができますが、一般的な差の大きさが3番目のグループの変動の大きさとどのように関係するかを見ることができます。)

異分散性を無視することは、異分散性を無視することは、より良い対処法が存在する場合に賢明ではないことを人々に警告する以外に、何が問題になるのかについての一般的な評価を出すのは難しいと思います。


はい、ここでのシナリオは、ホモスケダスチックな仮定の違反のみを参照することを意図しています
Gregg H

はい、元の投稿は、タイトルにデータの非正規性が含まれているが、実際の質問には正規性が含まれているため、少し混乱しました。説明をありがとう!
Isabella Ghement

3

まあ、通常の異分散データの場合、最悪の場合、まったく意味がありません。から引き出された変数を検討する

12πσ[r1μ12+r2μ22+σ2]2

これに感謝しますが、私がここで興味を持っている特定のシナリオは、通常ですが異分散です(前の質問へのリンクからの混乱については申し訳ありません)
Gregg H
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.