ANOVA仮定の正規性/残差の正規分布


52

ANOVAウィキペディアのページには、次の3つの仮定がリストされています

  • ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。
  • 正規性-残差の分布は正規です。
  • 等分散性と呼ばれる分散の平等(または「均一性」)...

ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。

いくつかの質問が表示されます:

  • 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))?
  • そうでない場合、どの仮定を保持する必要がありますか?1?両方?
  • 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

生データを正規に配布する必要があると主張する場合、これらのソース以外のソースはほとんど無視できます。とにかく、「私たち」は、ヒストグラムで生の値をチェックするだけだと言った人。あなたはそれらのシックスシグマクラスの1つですか?
DWin

1
@アンディW:ANOVAに関するウィキペディアの記事の関連セクションと思われるものへのリンクを追加しました。
ワンストップ

@DWin:blog.markanthonylawson.com/?p=296(申し訳ありませんが、完全にトピックから外れていますが、抵抗できませんでした)
ワンストップ

@onestopありがとう。私は怠け者であり、ウィキペディアでANOVAを自分で調べたくなかったので、質問に不可欠だからではなく、リンクをリクエストしただけです。
アンディW

回答:


35

これが固定効果モデルであると仮定しましょう。(ランダム効果モデルのアドバイスは実際には変わりませんが、少し複雑になります。)

  1. いいえ、残差の正規性と正規分布は同じではありません。肥料を使用した場合と使用しない場合の作物の収量を測定したとします。肥料なしのプロットでは、収穫量は70から130の範囲でした。肥料付きの2つのプロットでは、収穫量は470から530の範囲でした。結果の分布は、非常に非正規です。さらに、平均利回りがそれぞれ100および500であるとします。その後、すべての残差の範囲は-30〜+30です。それらは正規に配布される場合とそうでない場合がありますが、明らかにこれは完全に異なる配布です。

  2. 残差の分布は、モデルのランダム部分を反映するため重要です。p値はF(またはt)統計から計算され、それらは元の値ではなく残差に依存することにも注意してください。

  3. データに重要かつ重要な影響がある場合(この例のように)、「重大な」間違いを犯している可能性があります。運が良ければ、正しい判断を下すことができます。つまり、生データを調べることで、分布の混合物を見つけることができます。ポイントは、あなたが見ているものは関係ないということです。

ANOVA残差は、モデルに適合させるために通常に近い場所にある必要はありません。ただし、F分布から計算されたp値が意味を持つためには、残差のほぼ正規性が不可欠です。


6
追加すべき重要な点があると思います。ANOVAでは、各グループ内の(全体ではなく)正規性は残差の正規性と同等です。
アニコ

2
@Anikoコメントの「同等」とはどういう意味ですか?グループ内の正規性がそのグループの残差の正規性と同じであるのはほぼトートロジカルですが、各グループ内の正規性が残差の正規性を暗示する(または暗示する)ことは誤りです。
whuber

7
私は本当にトートロジー的な意味を意味しました。グループが正常であれば、残差は正常です。その逆は、ホモ分散性が追加された場合にのみ当てはまります(ANOVAのように)。残差の代わりにグループをチェックすることを主張するつもりはありませんが、これが仮定の変化するフレーズの根本的な理由だと思います。
アニコ

2
ANOVAを行う人々は通常p値の計算に興味があるように見えるため、残差の正規性が重要であることに気付きました。F分布からp値を計算することに関心がない場合、ANOVAモデルに適合する一般的な理由はありますか?この質問が広すぎてコメントできない場合はおologiesび申し上げます。
user1205901-モニカの復元15年

3
@ user1205901それは非常に良い点です。F検定に依存しないANOVAの2つの一般的な使用法は、(1)効果の推定値を取得する便利な方法、および(2)分散計算のコンポーネントの一部および区画です。
whuber

8

標準的な古典的な一元配置分散分析は、古典的な「2サンプルT検定」から「nサンプルT検定」への拡張と見なすことができます。これは、一元配置分散分析を2つのグループのみと比較して、従来の2標本T検定と比較するとわかります。

混乱しているのは、(モデルの仮定の下で)残差と生データが両方とも正規分布していることです。ただし、生データは、平均が異なる(すべての効果がまったく同じでない限り)正規分布で構成されていますが、分散は同じです。一方、残差は同じ正規分布を持ちます。これは、等分散性の3番目の仮定に由来します。

これは、正規分布が平均成分と分散成分に分解できるためです。場合、平均の正規分布有しμのJ及び分散σ 2のように書くことができるY 、I 、J = μ J + σ ε I J ε I jは標準正規分布を有しています。Yijμjσ2Yij=μj+σϵijϵij

ANOVAは正規性の仮定から導出できますが、(BEST)が最小平均二乗として解釈される(Best Linear Unbiased Estimator(BLUE)推定線に沿って)線形性の仮定に置き換えることができると思います(しかし確信はありません)エラー)。私は、これは基本的にのために配布置き換える必要信じる持つ任意の(すべての上に相互に独立分布Iおよびjの平均0、分散1を持っています)。ϵj

生データを見るという点では、モデルの各因子レベルに個別にプロットすると正常見えるはずです。これは、各jのを個別のグラフにプロットすることを意味します。Yj


1
(最後の段落で)同分散性の仮定を指摘するための+1。
whuber

比較するためにn個の従属グループを言わせ た場合、それらの残差を別々にチェックする必要があることを意味しますか(nグループの残差になります)。
スタン

5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnjMMj2

SSw=j=1p=1njyjMj2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyjMj

yjMjY=μj+ϵ=μ+αj+ϵyjMY=μ+ϵMMj

H0MyjMjMMj


2
SSχ2Mj=MjyjMjMjM

@onestopあなたの説明を反映するために編集されました、ありがとう!
カラカル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.