ANOVA:グループごとのサンプル数が少ない多くのグループの正規性の仮定のテスト


12

次の状況を想定します。

小さいグループサイズ(たとえばn = 3)で多数(たとえば20)があります。均一な分布から値を生成すると、エラー分布が均一であっても残差がほぼ正規に見えることに気付きました。次のRコードは、この動作を示しています。

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

3つのグループのサンプルの残差を見ると、動作の理由は明らかです。

r1=バツ1平均バツ1バツ2バツ3=バツ1バツ1+バツ2+バツ33=23バツ1バツ2バツ3

ここに画像の説明を入力してください

以来、概ね異ならない標準偏差を有するランダム変数の和であり、その分布はかなり近い正規分布に個々の用語よりなります。r1

ここで、シミュレートされたデータではなく、実際のデータで同じ状況があると仮定します。正規性に関するANOVAの仮定が成り立つかどうかを評価したいと思います。最も推奨される手順では、残差の目視検査(QQプロットなど)または残差の正規性テストを推奨しています。上記の私の例のように、これは小さなグループサイズには本当に最適ではありません。

小さなサイズのグループが多数ある場合、より良い代替手段はありますか?


1
いくつかの理由により、これは問題ではないようです。まず、残差は均一に見えます。これを確認するには、膨大な数のグループのヒストグラムを見てください。第二に、残差の正規性はほとんどの分析にとってほとんど重要ではありません。重要なのは、サンプリング分布のおおよその正規性です。それでは、アプリケーションのどのような特別な側面が実際の問題があると思い込ませますか?
whuber

1
a)私の残差は均一に見えません。20〜20000の多数のグループ(グループごとのサンプルではない)でこれをテストしました。質問に例を付けました。均一と正常の間の何かのように見え、正常への明確な傾向があります。b)サンプリング分布のおおよその正規性についてであることを知っています。残差は正常に見えますが、サンプリング分布はそうではないため、これが問題のポイントです。したがって、残差を使用してサンプリング分布のプロパティをテストすることはできません。
エリック

2
それは正しいです。しかし、エラーの分布に本当に興味がありますか、それとも分散分析の実行に興味がありますか?(質問を無視すべきだと示唆するつもりはありません-これはあなたが提起した魅力的な問題です-しかし、データ分析を進めるために本当に答えが必要かどうか疑問に思っています。)
whuber

3
ただし、同じシミュレーションを使用して、ANOVAの堅牢性を調査することができます!
kjetil bハルヴォルセン

4
わずかに接線的ですが関連するコメント:一般に、仮説検定を行う前に正規性(または別のモデル仮定)の検定を使用すると、(少なくとも)3つの問題が発生します。1)行う場合、複数の検定を考慮する必要があります。2)「正常ではない」などの対立仮説を拒否しても、正常性を結論付けることができるわけではありません。3)モデル仮定のテストには独自のモデル仮定があるため、どこでやめますか?
マーサ

回答:


1

a<ba+b2σabσ<aσ>bSD<σn>100

これで、フラストレーションで手を放すのではなく、通常の条件下でSDに少数の修正を適用できます。(ハ!私たちの悲惨さには解決策があります。)

SDnμn=2n1Γn2Γn12=114n732n219128n3+On4 見る E[μ]

にとって n=3、 これは Γ32=π20.8862269255。つまり、SDをその分だけ割って推定する必要がありますσ

さて、あなたがプレゼンテーションを行う場合、他にもいくつかのことが起こっています。偶然にも、均一な分布の位置の最良の尺度は平均ではありません。サンプル平均とサンプル中央値はどちらも中点の不偏推定量ですが、どちらもサンプル中範囲ほど効率的ではありません。つまり、サンプル最大値とサンプル最小値の算術平均は最小分散不偏推定量UMVUです中間点の推定量(および最尤推定値)。

今、問題の肉に。極値の平均を使用する場合、データが真に均一に分布していれば、位置の測定値の分散は小さくなります。単一の極値テールが正常である可能性が高いため、正規分布する場合があります。ただし、3サンプルのみの場合、標準偏差を修正する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.