フィッシャーの正確なテストについて:女性がミルクファーストカップの数を知らなければ、どのテストが適切だっただろうか?


18

RA Fisherによる有名なレディテイスティングティーの実験では、ミルクファースト/ティーファーストカップの数が知らされます(8カップのうち4カップ)。これは、フィッシャーの正確検定の固定限界総仮定を尊重します。

私は友人とこのテストを行うことを想像していましたが、その考えに衝撃を受けました。女性がミルクファーストカップとティーファーストカップの違いを本当に理解できれば、ミルクファースト/ティーファーストカップの限界合計と、どのカップがどれであるかを把握できるはずです。

そこで質問は次のとおりです。RAFisherがミルクファーストカップとティーファーストカップの合計数を女性に通知していなかった場合、どのテストを使用できたでしょうか。


4
設計によって2番目のマージンが固定されていなくても、女性の差別能力に関する情報がほとんどない(つまり、ほぼ補助的である)ことを条件にすべきだと主張する人もいます。正確に無条件のテスト(バーナードが最初に提案した)は、厄介なパラメーターのすべての可能な値に対して最大のp値を計算する必要があるため、より複雑です。
Scortchi-モニカの復職

4
実際、バーナードのテストにはウィキペディアのページがあります。
Scortchi-モニカの復職

@Scortchi言いたいことが他にありますか?私はそれに何も追加しませんでした(また、私はそれをそれほど明確にそして簡潔に言うこともできませんでした)。あなたの2つのコメントを越えて、あなたはそこに良い答えがあると思います。
Glen_b -Reinstateモニカ

1
Yates、F.(1984) "2×2分割表の有意性のテスト"、Journal of the Royal Statistical Societyで、(論文と討論者の両方で)見る価値のある議論があります。シリーズA(全般)、Vol。147、No. 3、pp。426-463。
Glen_b -Reinstateモニカ

1
平均して、ミルク入りのお茶4杯以上、ミルクなしのお茶4杯以上、彼女は1の確率であると言えます。121212

回答:


16

設計によって2番目のマージンが固定されていなくても、女性の差別能力に関する情報がほとんどない(つまり、ほぼ補助的である)ことを条件にすべきだと主張する人もいます。厳密な無条件検定(最初にBarnardが提案)は、迷惑パラメーターのすべての可能な値に対して最大p値を計算する必要があるため、より複雑です。つまり、帰無仮説の下での一般的なベルヌーイ確率です。さらに最近では、迷惑パラメータの信頼区間の上にp値を最大化することが提案されている:「より強力な信頼区間P値からのテスト」、ベルガー(1996)を参照してくださいアメリカの統計学者50、4。この考え方を使用して、正しいサイズの正確なテストを構築できます。

フィッシャーの正確検定は、エジジントンの意味でのランダム化検定としても発生します。実験的処理のランダムな割り当てにより、これらの割り当ての順列に対する検定統計量の分布を使用して帰無仮説をテストできます。このアプローチでは、女性の決定は固定されていると見なされます(そして、ミルクファーストカップとティーファーストカップの限界合計はもちろん順列によって保存されます)。


Barnard::barnardw.test()ここで使用できますか?計算の複雑さの実際の違いは何ですか?
krlmlr

私はそのパッケージに精通していませんが、リンクしているヘルプページは、私が話していたテストを正確に参照しています。も参照してくださいExact。計算の複雑さについてはわかりません-使用される最大化アルゴリズムに依存します。
Scortchi -復活モニカ

2

今日、私はRAフィッシャーによる「実験のデザイン」の最初の章を読みました、そして、パラグラフの1つは私の質問の根本的な欠陥に気づきました。

つまり、たとえ女性がミルクファーストカップとティーファーストカップの違いを本当に理解できたとしても、「有限の量の実験によって」その能力があることを証明することはできません。この理由から、実験者として、私は彼女が能力(帰無仮説)を持っていないという仮定から始めて、それを不承認にしようとするべきです。そして、元の実験デザイン(フィッシャーの正確なテスト)は、そうするのに十分で、効率的で、正当な手順です。

RAフィッシャーによる「実験の設計」からの抜粋です。

被験者が2つの異なる種類の物体間で感覚的差別を持たないという仮説を実験で反証できる場合、そのような差別を行うことができるという反対の仮説を証明できなければならないと主張されるかもしれません。しかし、この最後の仮説は、それが合理的であろうと、それが真実であろうと、不正確であるため、実験によって検証される帰無仮説としては不適格です。被験者が彼女の判断で決して間違っていないと断言された場合、我々は再び正確な仮説を持ち、この仮説は単一の失敗によって反証される可能性があるが、有限量の実験によって証明されることは決してない


1

Barnardの検定は、帰無仮説の下で迷惑パラメーターが不明な場合に使用されます。

ただし、女性のテイスティングテストでは、帰無仮説の下で迷惑パラメーターを0.5に設定できると主張することができます(情報のない女性は、カップを正しく推測する確率が50%です)。

次に、帰無仮説の下での正しい推測の数は二項分布になります:各カップについて50%の確率で8カップを推測します。


他の機会では、帰無仮説についてこの些細な50%の確率がないかもしれません。そして、固定マージンがないと、その確率がどうあるべきかわからないかもしれません。その場合、バーナードのテストが必要です。


女性のテイスティングティーテストでBarnardのテストを行う場合でも、最高のp値を持つ迷惑度パラメーターは0.5であり、自明な二項検定(実際には、2つの二項検定を組み合わせたもので、1つは牛乳1杯目、もう1つは茶1杯目です)。

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

以下は、より複雑な結果を得る方法です(すべての推測が正しいわけではない場合(2対4など))、極端なものとそうでないもののカウントは少し難しくなります

(同様に、バーナードのテストでは、4-2の結果の場合、迷惑パラメーターp = 0.686が正しくないことを主張していることに注意してください。領域を定義するのはそれほど簡単ではありませんが、これは別の領域を考慮するとさらに小さくなり、代わりにWaldの統計に基づいた領域になります

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.