ANOVAの仮定(分散の等価性、残差の正規性)が重要なのはなぜですか?


15

ANOVAを実行すると、データに適用できるように、テストの特定の仮定が存在する必要があることが通知されます。テストが機能するために次の仮定が必要だった理由について、私は理解できませんでした。

  1. 従属変数(残差)の分散は、設計の各セルで等しくなければなりません

  2. 従属変数(残差)は、設計の各セルにほぼ正規分布する必要があります。

これらの仮定を満たす必要があるかどうかについて少し灰色の領域があることを理解していますが、議論のために、これらの仮定が特定のデータセットで完全に満たされていない場合、ANOVAを使用する際の問題は何でしょうか?


あなたの研究の目標は何ですか?
サブハッシュC.ダバール

回答:


8

仮定は、仮説検定(および区間)のプロパティに影響を与える限り重要です。仮説の分布プロパティは、これらの仮定に基づいて、nullの下で分布プロパティが計算されます。

特に、仮説検定の場合、私たちが気にするかもしれないことは、真の有意水準が私たちが望むものからどれくらい離れているか、そして関心のある代替案に対する力が良いかどうかです。

あなたが尋ねる仮定に関して:

1.分散の等式

従属変数(残差)の分散は、設計の各セルで等しくなければなりません

少なくともサンプルサイズが等しくない場合、これは確かに有意水準に影響を与える可能性があります。

(編集:) ANOVA F統計は分散の2つの推定値の比率です(分散の分割と比較が分散分析と呼ばれる理由です))。分母は、一般的にすべてのセルに共通と思われる誤差分散(残差から計算)の推定値です。一方、分子は、グループ平均の変動に基づいて、2つのコンポーネントを持ちます。エラー分散による。ヌルが真の場合、推定されている2つの分散は同じになります(共通誤差分散の2つの推定)。この一般的であるが未知の値は相殺され(比率を取得したため)、エラーの分布のみに依存するF統計が残ります(これは、表示可能な仮定の下ではF分布を持ちます(同様のコメントがt-説明に使用したテスト)

[ ここでの私の回答には、その情報の詳細がもう少しあります ]

ただし、ここでは、2つの母集団の分散は、サイズが異なる2つのサンプル間で異なります。分母(ANOVAのF統計量とt検定のt統計量)を考えてください-1つではなく2つの異なる分散推定値で構成されているため、「正しい」分布(スケーリングされたchi -Fの平方とatの場合の平方根-形状とスケールの両方が問題です)。

その結果、F統計量またはt統計量はF分布またはt分布を持たなくなりますが、影響を受ける方法は、大規模または小規模のサンプルが母集団から抽出されたかどうかによって異なりますより大きな分散。これは、p値の分布に影響します。

ヌルの下(つまり、母平均が等しい場合)では、p値の分布は均一に分布する必要があります。ただし、分散とサンプルサイズが等しくないが平均が等しい場合(nullを拒否したくない場合)、p値は均一に分布しません。何が起こるかを示すために、小さなシミュレーションを行いました。この場合、2つのグループのみを使用したため、ANOVAは等分散の仮定を使用した2サンプルのt検定に相当します。したがって、2つの正規分布のサンプルをシミュレートしました。一方の標準偏差は他方の標準偏差の10倍ですが、平均は同じです。

左側のプロットでは、大きい(母集団)標準偏差はn = 5であり、小さい標準偏差はn = 30でした。右側のプロットでは、n = 30で標準偏差が大きくなり、n = 5で標準偏差が小さくなりました。それぞれ10000回シミュレートし、毎回p値を見つけました。いずれの場合も、ヒストグラムを完全にフラット(長方形)にする必要があります。これは、何らかの有意水準で行われたすべてのテストが実際にそのタイプIエラー率を取得することを意味するためです。特に、ヒストグラムの左端の部分が灰色の線の近くに留まることが最も重要です。α

シミュレートされたサンプルのp値のヒストグラム

ご覧のように、左側のプロット(小さいサンプルで大きい分散)のp値は非常に小さくなる傾向があります。nullが真であっても、null仮説を非常に頻繁に拒否します(この例ではほぼ半分の時間) 。つまり、私たちの有意水準は私たちが要求したよりもはるかに大きいです。右側のプロットでは、p値がほとんど大きいことがわかります(したがって、有意水準は要求したよりもはるかに小さくなっています)-実際、1万回のシミュレーションに1回ではなく、5%レベル(最小のここでのp値は0.055でした。[これは、非常に低い有意水準で行くために非常に低いパワーも持つことを思い出すまで、このような悪いことのように聞こえないかもしれません。]

それはかなりの結果です。これが、分散がほぼ等しいと仮定する正当な理由がない場合に、ウェルチ・サタースウェイト型のt検定またはANOVAを使用することをお勧めする理由です-比較すると、これらの状況ではほとんど影響を受けません(私はこのケースも同様にシミュレートしました;シミュレートされたp値の2つの分布(ここでは表示していません)は、ほぼ平坦になりました)。

2.応答の条件付き分布(DV)

従属変数(残差)は、設計の各セルにほぼ正規分布する必要があります。

これはややそれほど重要ではありません-正規性から中程度の偏差の場合、有意なレベルは大きなサンプルではそれほど影響を受けません(ただし、パワーは可能です!)。

次に、値が指数関数的に分布する(同じ分布とサンプルサイズで)1つの例を示します。この重要度レベルの問題は、小さいでは重要ですが、大きいnでは減少することがわかります。nn

H0がtrueであるが、各グループの分布が指数関数である場合のp値のヒストグラム

n = 5では、小さなp値が実質的に少なすぎることがわかります(5%テストの有意水準は約半分になります)が、n = 50では問題が軽減されます-5%この場合のテストでは、真の有意水準は約4.5%です。

したがって、「nが有意水準をかなり近くするのに十分な大きさであるなら、それでいい」と言いたくなるかもしれませんが、かなりの力を投じることもできます。特に、広く使用されている選択肢と比較したt検定の漸近的な相対効率は0になることが知られています。これは、より良いテスト選択が、それを得るために必要なサンプルサイズのごくわずかな部分で同じパワーを得ることができることを意味しますt検定。代わりのテストで必要となるtと同じ検出力を得るために2倍以上のデータを必要とするのに、通常とは異なるものは必要ありません-人口分布の通常のテールよりやや重い適度に大きいサンプルで十分です。

(分布の他の選択により、有意水準が本来あるべきレベルよりも高くなるか、ここで見たよりも大幅に低くなる場合があります。)


詳細な対応をしてくれたグレンに感謝します。仮定が満たされなかった場合、説明したエラーが発生する理由について興味があります。分散の均等性の観点から、次のことを書くことからあなたの文章を修正することは正しいですか?大きい分散は(また、一般に小さいデータポイントの数、つまりn = 5)、小さいサンプルで観測された大きい分散が母集団レベルでの分散の代表として計算されていることです。
PaperRockBazooka

(パート2)ANOVAの処理方法が原因でタイプ1エラーが発生する可能性のある、代表的なサンプルと代表的なサンプル(比較的言えば)の本質的に不公平な比較。
PaperRockBazooka

@Paper私はそれがここの問題だとは思わない。小さいサンプルのサンプル分散の代表性ではありません(たとえば、両方のサンプルが同等に小さい場合、代表性の問題は2倍になりますが、この問題はありません)。問題がどのように発生するかをより詳細に説明するために、回答にいくつかの段落を追加しました。
Glen_b-モニカを

4

一言で言えば、ANOVAは残差を加算二乗平均化してい ます。残差は、モデルがデータにどの程度適合するかを示します。この例では、次のデータセットを使用しました。PlantGrowthR

対照および2つの異なる処理条件下で得られた収量(植物の乾燥重量で測定)を比較する実験の結果。

この最初のプロットは、3つの治療レベルすべての総平均を示しています。

ここに画像の説明を入力してください

赤い線は残差です。これらの個々の行の長さを二乗して追加することにより、平均(モデル)がデータをどの程度うまく記述しているかを示す値が得られます。小さい数値は、平均がデータポイントを適切に表していることを示し、大きい数値は、平均がデータをそれほど適切に表していないことを示します。この数は総平方和と呼ばれます:

SStotal=(xix¯grand)2xix¯grand

今、あなたはあなたの治療の残差に対して同じことをします(Residual Sums of Squares、治療レベルのノイズとしても知られています):

ここに画像の説明を入力してください

そして式:

SSresiduals=(xikx¯k)2xikikx¯k

最後に、データ内の信号を決定する必要があります。これは、後でモデル平均平方と呼ばれ、治療平均が総平均と異なるかどうかを計算するために使用されます。

ここに画像の説明を入力してください

そして式:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

平方和の欠点は、サンプルサイズが大きくなるにつれて大きくなることです。データセット内の観測数に対するこれらの平方和を表すには、それらを自由度で除算して分散に変換します。したがって、データポイントを2乗して追加した後、自由度を使用してそれらを平均化しています。

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

これにより、モデルの平均平方残差の平均平方(どちらも分散)、またはF値として知られる信号対雑音比が得られます。

MSmodel=SSmodeldfmodel

MSresidual=SSresidualdfresidual

F=MSmodelMSresidual

F値は、信号対雑音比、または治療手段が総平均と異なるかどうかを示します。F値は現在、p値を計算するために使用され、それらは少なくとも1つの治療手段が総平均と有意に異なるかどうかを決定します。

仮定が残差の計算に基づいており、なぜそれらが重要であるかを理解できることを望みます。残差を追加二乗平均化するので、これを行う前に、それらの治療グループのデータが同様動作することを確認する必要があります。さもなければ、F値がある程度偏り、このF値から得られる推論が有効ではありません。

編集:OPの質問2と1をより具体的に扱うために2つの段落を追加しました

正規性の仮定:平均(または期待値)は、分布の中心を記述するために統計でよく使用されますが、あまりロバストではなく、外れ値の影響を受けやすくなっています。平均は、データに適合できる最も単純なモデルです。ANOVAでは、平均を使用して残差と二乗和を計算しているため(上​​記の式を参照)、データはほぼ正規分布しているはずです(正規性の仮定)。そうでない場合、平均はサンプル分布の中心の正しい位置を与えないため、データに適切なモデルではない可能性があります。代わりに、たとえば中央値を一度使用できます(ノンパラメトリックテスト手順を参照)。

分散の均一性の仮定:平均平方(モデルと残差)を計算するときに、個々の平方和を処理レベルからプールし、平均化します(上記の式を参照)。プールと平均化により、個々の治療レベルの分散と平均二乗への寄与の情報が失われます。したがって、平均平方への寄与が類似するように、すべての処理レベル間でほぼ同じ分散を持つ必要があります。それらの治療レベル間の分散が異なる場合、結果の二乗平均とF値は偏り、p値の計算に影響を与え、これらのp値から導き出された推論を疑わしくします(@whuberのコメントと@Glen_bの回答)。

これが私自身の見方です。100%正確ではないかもしれません(私は統計学者ではありません)が、ANOVAの仮定を満たすことが重要である理由を理解するのに役立ちます。


FFFFF

FF

ありがとう、ステファン。私はあなたを正しく理解しているかどうかを見たいです。ANOVAは基本的に、セットのすべてのデータポイントから大平均を作成し、各グループがこの大平均からどれだけ離れているかを比較して、それらが統計的に有意な差であるかどうかを理解します。議論された仮定が満たされない場合、総平均は比較されるグループをあまり反映していないため、比較が困難になります
PaperRockBazooka

SStotalSSresidualSSmodel)信号対雑音比を決定します。手作業で簡単な一元配置分散分析を計算してみてください。それは私がそれをよりよく理解するのを助けました。
ステファン

0

ANOVAは単なる方法であり、サンプルからF検定を計算し、F分布と比較します。比較対象を決定し、p値を計算するには、いくつかの仮定が必要です。

その仮定を満たさない場合は、他のことを計算できますが、分散分析にはなりません。

最も有用な分布は通常の分布(CLTが原因)であるため、最も一般的に使用されています。データが正常に配布されていない場合は、少なくとも何かを計算するために、少なくともその分布が何かを知る必要があります。

同相性は回帰分析でも一般的な仮定であり、物事を簡単にします。最初にいくつかの仮定が必要です。

等分散性がない場合は、データを変換して達成することができます。

ANOVA F検定は、一定の割合の偽陽性エラーに対して偽陰性エラーを最小化するという意味で、ほぼ最適であることが知られています。


「ANOVA」とは、平方和を解釈可能なコンポーネントに分解するプロセスを指します。分布の仮定に関係なく、ANOVAはANOVAです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.