二項データのANOVA


32

実験データセットを分析しています。データは、治療タイプと二項式の結果のペアベクトルで構成されます。

Treatment    Outcome
A            1
B            0
C            0
D            1
A            0
...

結果列の1は成功を示し、0は失敗を示します。治療が結果を大きく変えるかどうかを知りたいです。4回の異なる治療があり、各実験は何度も繰り返されます(各治療で2000回)。

私の質問は、ANOVAを使用してバイナリの結果を分析できますか?または、二項データをチェックするためにカイ二乗検定を使用する必要がありますか?カイ2乗は割合が均等に分割されると仮定しているようですが、そうではありません。別のアイデアは、各治療の成功と失敗の割合を使用してデータを要約し、次に割合テストを使用することです。

この種の二項式の成功/失敗実験に意味のあるテストについてのあなたの推奨を聞きたいです。

回答:


18

ANOVAにはありません。これは、(特に)正規分布の結果変数を想定しています。考慮すべき「旧式」の変換がありますが、ロジスティック回帰(あなたの場合のように、独立変数が1つしかない場合のカイ2乗に相当)をお勧めします。カイ2乗検定よりもロジスティック回帰を使用する利点は、全体の検定(タイプ3)に有意な結果が見つかった場合、線形コントラストを使用して特定の治療レベルを簡単に比較できることです。たとえば、A対B、B対Cなど。

明確にするために更新を追加:

手元のデータ(Allisonの post docデータセット)を取得し、変数citsを次のように使用して、これが私のポイントでした:

postdocData$citsBin <- ifelse(postdocData$cits>2, 3, postdocData$cits)
postdocData$citsBin <- as.factor(postdocData$citsBin)
ordered(postdocData$citsBin, levels=c("0", "1", "2", "3"))
contrasts(postdocData$citsBin) <- contr.treatment(4, base=4) # set 4th level as reference
contrasts(postdocData$citsBin)
     #   1 2 3
     # 0 1 0 0
     # 1 0 1 0
     # 2 0 0 1
     # 3 0 0 0

# fit the univariate logistic regression model
model.1 <- glm(pdoc~citsBin, data=postdocData, family=binomial(link="logit"))

library(car) # John Fox package
car::Anova(model.1, test="LR", type="III") # type 3 analysis (SAS verbiage)
     # Response: pdoc
     #          LR Chisq Df Pr(>Chisq)
     # citsBin   1.7977  3     0.6154

chisq.test(table(postdocData$citsBin, postdocData$pdoc)) 
     # X-squared = 1.7957, df = 3, p-value = 0.6159

# then can test differences in levels, such as: contrast cits=0 minus cits=1 = 0
# Ho: Beta_1 - Beta_2 = 0
cVec <- c(0,1,-1,0)
car::linearHypothesis(model.1, cVec, verbose=TRUE) 

1
@ user2040。「タイプ3」テストをどうやって行うのかわかりませんか?SAS関連のものですか?(SASの知識は非常に限られています)。あなたが提案したようにロジスティック回帰を行いましたが、2つのダミー変数を使用していました。また、あなたはロジスティック回帰を行う場合、一部またはすべての係数が0の逸脱(または尤度比)によって行われている場合、私がテストして、正しく理解していることを与えられ、それが(DF = 1とは限らない)漸近的にカイ二乗IS
suncoolsu

1
@suncoolsu:はい、実質的に言えば、同じ結論を得る必要があります。「同等」と言ってはいけませんでした(ビッグデータを扱うので、結果は同じになります)。わかりやすくするために、回答にコードをいくつか追加しました。
B_Miner

8

Xkknkkkp^k=Xk/nk

g(p)=arcsinp

ただし、一部の現代の著者は、アークサイン変換に非常に懐疑的です。たとえば、http: //www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2010.pdfを参照してください。 しかし、この著者は、アークサインは問題を引き起こす可能性があります。仮説検定のみに関心がある場合は、問題ないはずです。より現代的なアプローチでは、ロジスティック回帰を使用できます。


4
(+1)...すべてのグループに同じ番号がある場合。観察。
Scortchi -復活モニカ

1
または、観測数に基づいた重みを使用できます。
kjetil bハルヴォルセン

3

カイ二乗検定についてあなたが考えていることとは違うことをしたいと思います。データが二項でない場合でも適用できます。mleの漸近的な正規性に基づいています(ほとんどの場合)。

私はこのようなロジスティック回帰を行います:

logπ^1π^=β0+β1×D1+β2×D2

どこで

D1D2D1=D2=0A,D1=1,D2=0B,D1=1D2=1C

Ho:β0=β1=β2=0

リレーションがある場合とない場合のANOVAは同等です。

Ho:β0=0

テストはAに効果がありますか。

Ho:β1β0=0

テストがBに何らかの効果があるかどうか。

Ho:β2(β0+β12)=0

テストがCに何らかの効果があるかどうか。

今、あなたは私たちの興味のあるものを見つけるためにさらにコントラストを行うことができます。それはまだカイ二乗検定ですが、自由度が異なります(それぞれ3、1、1、1)


私はまだコントラストについて考える必要があります。時間があるときはいつでも修正します。ごめんなさい
-suncoolsu

-3

ANOVAを二項従属変数の分析に使用すべきでないことは正しいと思います。多くの人がこれを使用してバイナリ応答変数(0 1)の平均を比較しますが、これは正規性と等分散の仮定に重大に違反するため、使用すべきではありません。これらの状況には、カイ二乗検定またはロジスティック回帰が最適です。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.