回答:
t検定のp値は、すべての観測値が独立しているという仮定の下で計算されます。従属変数を処理する場合、確率(p値など)の計算ははるかに困難です。また、従属変数が存在する場合にテストで問題が発生する場所を数学的に確認することは必ずしも容易ではありません。ただし、シミュレーションで問題を簡単に説明できます。
たとえば、2つの学校のそれぞれに5つの教室があり、各教室に10人の生徒がいる場合を考えます。すべての教室間で平均テストスコアに差がない場合、正規性の仮定の下で、テストのp値は間隔で均一に分布する必要があります。つまり、このような多くの研究を行い、すべてのp値のヒストグラムをプロットした場合、それはボックス型の均一分布に似ているはずです。
ただし、生徒の結果の間に教室内の相関がある場合、p値は正常に機能しなくなります。正の相関関係(ここで予想されるかもしれません)は、p値が小さすぎることが多いため、実際には真である場合に帰無仮説が棄却される頻度が高くなります。これを示すRシミュレーションは以下にあります。2つの学校の1000の研究は、教室内のさまざまな相関関係についてシミュレーションされます。図のヒストグラムには、対応するt検定のp値が示されています。相関がない場合は均一に分散されますが、それ以外の場合は分散されません。シミュレーションでは、教室間に平均差はなく、すべての教室は教室内の相関が同じであると想定されています。
この現象の結果は、教室内の相関関係が存在する場合、t検定のタイプIのエラー率が大幅に低下することです。例として、教室内相関が0.1の場合、5%レベルのt検定は実際には約25%レベルです。言い換えると、観測値が依存している場合、帰無仮説を誤って拒否するリスクが劇的に増加します。
ヒストグラム間で軸が多少異なることに注意してください。
Rコード:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}
問題は、2つの学校をこのように比較すると、大学レベルの効果と教室レベルの効果が混ざり合うことです。混合モデルでは、これらのもつれをほどくことができます。それらのもつれをほぐすことに関心がない場合でも、クラスター化されたサンプリングを考慮する必要があります(多くの人がこれを失敗していますが)。
上記の@Nicoのコメントは、ここで1つの問題にぶつかります:1つの学校の1人の教師が本当に優れていて、彼/彼女がたまたま選ばれた教師の1人だとしたら?
しかし、別の問題は、各クラスの学生は、さまざまな方法で同じ大学の他の学生よりも互いに似ているということです:異なる科目は、年齢、性別、経験、学力によって異なるタイプの学生を引き付けます弱点など
両方の学校から公正な方法でサンプルを採取したので、あなたが説明したテストに問題はありません。依存する観測は、サンプルが依存する別の変数があるときに機能します。つまり、いずれかの学校で1つのクラスしか表示されておらず、この1つのクラス内の50人から結果を取得することにしました。しかし、学校内では結果がクラスに依存しているため、このように行うことはできず、統計的検定では検出できない誤った結果が得られます。これは、誤った実験計画です。
しかし、人々は通常、異なる視点からの依存的観察について話していると思います。それは、独立性の仮定に基づいてサンプルから分布とエラーを導き出すことができると考えるときです(ほとんどの標準的な式はそれを前提としています)。一方、結果が互いに依存しているときは、これらのルールはまったく正確ではありません...