対になったt検定と対になっていないt検定、および関連するp値について心配していることは、今ではずっとよく理解できます。見つけることは興味深い旅であり、その過程で多くの驚きがありました。マイケルの貢献を調査した結果、1つの驚きがありました。これは実際的なアドバイスという点では非難できません。さらに、彼は私が事実上すべての統計学者が信じていると思うことを言い、彼はこれを支持するいくつかの賛成票を持っています。しかし、理論の一部として、それは文字通り正確ではありません。これを発見したのは、p値の式を作成し、その式を使用して反例に導く方法を慎重に考えたことです。私は訓練を受けた数学者であり、反例は「数学者の反例」です。実際の統計で出くわすものではありませんが、 元の質問をしたときに見つけようとしていたもの。
反例を示すRコードは次のとおりです。
vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
X <- rnorm(vLength)
Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
Paired <- t.test(X,Y,var.equal=T,paired=T)
NotPaired <- t.test(X,Y,var.equal=T,paired=F)
c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))
次の機能に注意してください。XとYは2つの10タプルで、その差は大きく、ほぼ一定です。多くの有意な数字では、相関は1.000です。...対応のないテストのp値は、対応のあるテストのp値の約10 ^ 40倍です。したがって、これはマイケルのアカウントと矛盾します。ただし、文字通り数学者スタイルのアカウントを読んだ場合に限ります。マイケルの答えに関連する私の答えの一部はここで終わりです。
ここにピーターの答えによって促された考えがあります。私の元の質問の議論の中で、私はコメントの中で、異なるように聞こえるp値の2つの特定の分布は実際には同じであると推測しました。これを証明できます。さらに重要なことは、証明がp値の基本的な性質を明らかにすることであり、非常に基本的なため、テキスト(私が遭遇したこと)で説明する必要はありません。専門家の統計学者はすべて秘密を知っているかもしれませんが、私にとっては、p値の定義は常に奇妙で人工的なものに見えました。統計学者の秘密を伝える前に、質問を指定させてください。
n > 1n2 (n − 1 )n − 1自由度。これらの2つの分布は異なるので、一体どのように関連するp値の分布を同じにすることができますか?さらに考えた後初めて、この推測のこの明らかな却下はあまりにも簡単であることに気づきました。
f:(0 、∞ )→ (0 、∞ )[ 0 、1 ]
p = ∫∞tf(s )ds
f(- ∞ 、∞ )[ 0 、∞ )
[ 0 、1 ]
n − 1[ 0 、1 ]2 (n − 1 )[ 0 、1 ][ 0 、1 ]