一言で言えば、ANOVAは残差を加算、二乗、平均化してい ます。残差は、モデルがデータにどの程度適合するかを示します。この例では、次のデータセットを使用しました。PlantGrowth
R
対照および2つの異なる処理条件下で得られた収量(植物の乾燥重量で測定)を比較する実験の結果。
この最初のプロットは、3つの治療レベルすべての総平均を示しています。
赤い線は残差です。これらの個々の行の長さを二乗して追加することにより、平均(モデル)がデータをどの程度うまく記述しているかを示す値が得られます。小さい数値は、平均がデータポイントを適切に表していることを示し、大きい数値は、平均がデータをそれほど適切に表していないことを示します。この数は総平方和と呼ばれます:
SStotal=∑(xi−x¯grand)2xix¯grand
今、あなたはあなたの治療の残差に対して同じことをします(Residual Sums of Squares、治療レベルのノイズとしても知られています):
そして式:
SSresiduals=∑(xik−x¯k)2xikikx¯k
最後に、データ内の信号を決定する必要があります。これは、後でモデル平均平方と呼ばれ、治療平均が総平均と異なるかどうかを計算するために使用されます。
そして式:
SSmodel=∑nk(x¯k−x¯grand)2nknkx¯kx¯grand
平方和の欠点は、サンプルサイズが大きくなるにつれて大きくなることです。データセット内の観測数に対するこれらの平方和を表すには、それらを自由度で除算して分散に変換します。したがって、データポイントを2乗して追加した後、自由度を使用してそれらを平均化しています。
dftotal=(n−1)
dfresidual=(n−k)
dfmodel=(k−1)
nk
これにより、モデルの平均平方と残差の平均平方(どちらも分散)、またはF値として知られる信号対雑音比が得られます。
MSmodel=SSmodeldfmodel
MSresidual=SSresidualdfresidual
F=MSmodelMSresidual
F値は、信号対雑音比、または治療手段が総平均と異なるかどうかを示します。F値は現在、p値を計算するために使用され、それらは少なくとも1つの治療手段が総平均と有意に異なるかどうかを決定します。
仮定が残差の計算に基づいており、なぜそれらが重要であるかを理解できることを望みます。残差を追加、二乗、平均化するので、これを行う前に、それらの治療グループのデータが同様に動作することを確認する必要があります。さもなければ、F値がある程度偏り、このF値から得られる推論が有効ではありません。
編集:OPの質問2と1をより具体的に扱うために2つの段落を追加しました。
正規性の仮定:平均(または期待値)は、分布の中心を記述するために統計でよく使用されますが、あまりロバストではなく、外れ値の影響を受けやすくなっています。平均は、データに適合できる最も単純なモデルです。ANOVAでは、平均を使用して残差と二乗和を計算しているため(上記の式を参照)、データはほぼ正規分布しているはずです(正規性の仮定)。そうでない場合、平均はサンプル分布の中心の正しい位置を与えないため、データに適切なモデルではない可能性があります。代わりに、たとえば中央値を一度使用できます(ノンパラメトリックテスト手順を参照)。
分散の均一性の仮定:平均平方(モデルと残差)を計算するときに、個々の平方和を処理レベルからプールし、平均化します(上記の式を参照)。プールと平均化により、個々の治療レベルの分散と平均二乗への寄与の情報が失われます。したがって、平均平方への寄与が類似するように、すべての処理レベル間でほぼ同じ分散を持つ必要があります。それらの治療レベル間の分散が異なる場合、結果の二乗平均とF値は偏り、p値の計算に影響を与え、これらのp値から導き出された推論を疑わしくします(@whuberのコメントと@Glen_bの回答)。
これが私自身の見方です。100%正確ではないかもしれません(私は統計学者ではありません)が、ANOVAの仮定を満たすことが重要である理由を理解するのに役立ちます。