質問の概要
警告:この質問には多くの設定が必要です。どうか我慢してください。
私と私の同僚は、実験計画に取り組んでいます。このデザインは、以下にリストする多数の制約を回避する必要があります。制約を満たし、関心のある効果の公平な推定値を提供する設計を開発しました。しかし、私の同僚は、設計に混乱があると考えています。この点については、解決に至らずに吐き気を催しているので、この点については外部の意見をお願いします。
この研究の目標、私たちの制約、潜在的な混乱、およびこの「混乱」が問題ではないと私が考える理由を以下に説明します。各セクションを読むときに、私の全体的な質問に留意してください。
私が説明するデザインには混乱がありますか?
[この実験の詳細は変更されましたが、私の質問をするために必要な必須要素は同じままです]
実験目標
白人男性によって書かれたエッセイが、白人女性、黒人男性、または黒人女性によって書かれたエッセイよりも有利に評価されるかどうかを判断したいと思います(エッセイ著者変数)。また、高品質または低品質の助成金(品質変数)で見つかったバイアスがより多く現れるかどうかを判断したいと考えています。最後に、12の異なるトピック(トピック変数)について書かれたエッセイを含めたいと思います。ただし、実質的に重要なのは最初の2つの変数のみです。トピックは論文ごとに異なる必要がありますが、トピックごとに評価がどのように異なるかに実質的に関心はありません。
制約
- 参加者の数と収集できるエッセイの数には制限があります。その結果、オーサーシップは参加者間で完全に操作することも、エッセイ間で完全に操作することもできません(つまり、各エッセイは複数の条件に割り当てられなければなりません)。
- 各エッセイには白人男性、白人女性、黒人男性、黒人女性のバージョンがありますが、各エッセイは高品質と低品質のいずれかで、1つのトピックのみになります。または、この制約を別の方法で言えば、エッセイ内で品質やトピックを操作することはできません。これらは特定のエッセイに固有の特性であるためです。
- 疲労のため、特定の参加者が評価できるエッセイの数には制限があります。
- 特定の人が読むエッセイはすべて、単一のトピックに関するものでなければなりません。言い換えると、各参加者が同様のトピックのエッセイのみを読むようにする必要があるため、エッセイを完全にランダムに参加者に割り当てることはできません。
- エッセイの多くは黒人または女性の著者によって書かれているため、実験の目的について参加者に疑わせたくないので、各参加者は、白人ではない男性著者によって執筆されたと思われるエッセイを1つしか表示できません。
提案された設計
私の提案する設計では、最初に各エッセイを4つの異なる著者バージョン(白人男性、白人女性など)に操作します。同様のトピックの4つのエッセイを使用して「セット」を定義します。各セットは、2つの高品質のエッセイと2つの低品質のエッセイで構成されます。各参加者は、下の図に示すように、所定のセットから3つのエッセイを受け取ります。各参加者は、自分が割り当てられた3つのエッセイのそれぞれに単一の評価を提供します。
潜在的な交絡
私の同僚は、上記の設計には混乱が含まれると考えています。問題は、高品質のエッセイが白人ではない男性作家による執筆に割り当てられた場合、常に1つの高品質のエッセイと1つの低品質のエッセイとペアになることです(エッセイ1については、参加者1-3を参照してください図で)。一方、同じエッセイが白人男性作家による執筆に割り当てられている場合、1つの高品質のエッセイと1つの低品質のエッセイが3回(エッセイ1、参加者4-6の場合)、2つの低品質のエッセイ3回(エッセイ1、参加者7-9の場合)。
低品質のエッセイにも同様の問題があります。低品質のエッセイに白人以外の男性著者がいる場合、常に低品質のエッセイと高品質のエッセイが表示されます(エッセイ3については、参加者7-9を参照)。ただし、同じエッセイに白人男性著者がいる場合、1つの高品質のエッセイと1つの低品質のエッセイで3回(エッセイ3、参加者10-12)、2つの高品質のエッセイで3回(エッセイ3、参加者1-3)。
上記のパターンが問題になる可能性があるのは、「コントラスト効果」の存在を仮定した場合です。具体的には、高品質のエッセイが1つの低品質のエッセイと1つの高品質のエッセイ(合理的な仮定)とペアリングされる場合よりも、2つの低品質のエッセイとペアリングされる場合の平均でより好意的に評価される場合、白人男性のエッセイは、著者以外の理由による白人女性、黒人男性、および黒人女性のエッセイ。
高品質のエッセイのコントラスト効果は、低品質のエッセイのコントラスト効果によってバランスがとれる場合とされない場合があります。つまり、2つの高品質のエッセイと対になった低品質のエッセイが特に不利に評価される場合とそうでない場合があります。とにかく、私の同僚の主張では、あらゆる種類のコントラスト効果の可能性により、白人男性によって書かれたエッセイが他の著者のエッセイよりも好意的に評価されるかどうかを判断するために、このデザインに問題が生じます。
潜在的な交絡が問題ではないと思う理由
私にとって重要なのは、コントラスト効果が存在する場合でも、白人男性のエッセイが他のエッセイとは異なる評価の程度を推定できるかどうか(つまり、興味のある効果を推定できるかどうか)です。そのため、コントラスト効果を含む50個のデータセットをシミュレートし、対象の効果をテストするモデルに適合するシミュレーションを実施しました。
特定のモデルは、エッセイ(各エッセイが複数の参加者によって評価される)および参加者(各参加者が複数のエッセイを評価する)のランダムインターセプトを含む混合効果モデルです。エッセイレベルには、人種、性別、およびそれらの相互作用のランダムな勾配が含まれ(両方の変数はエッセイ内で操作されます)、参加者レベルには品質のランダムな勾配が含まれます(参加者内で品質が操作されます)。関心のある効果は、人種、性別、人種と性別の間の相互作用、およびこれらの変数と品質のそれぞれの間の高次相互作用の効果です。このシミュレーションの目的は、データにコントラスト効果を導入すると、人種、性別、人種と性別の相互作用、これらの変数と品質の間の高次の相互作用。詳細については、以下のコードチャンクを参照してください。
シミュレーションによると、コントラスト効果の存在は、関心のある効果の推定値にバイアスをかけません。さらに、コントラスト効果のサイズは、設計の他の効果と同じ統計モデルで推定できます。私にとって、これはすでに、私の同僚によって特定された「コントラスト効果」が混乱ではないことを示唆しています。しかし、私の同僚は懐疑的なままです。
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
繰り返しますが、私の全体的な質問は、私が説明した設計に混乱がありますか?交絡が存在しない場合、潜在的な「コントラスト効果」が交絡ではない理由の説明に興味があるので、これを同僚に説明できます。