実験計画の潜在的な混乱

質問の概要

警告：この質問には多くの設定が必要です。どうか我慢してください。

私と私の同僚は、実験計画に取り組んでいます。このデザインは、以下にリストする多数の制約を回避する必要があります。制約を満たし、関心のある効果の公平な推定値を提供する設計を開発しました。しかし、私の同僚は、設計に混乱があると考えています。この点については、解決に至らずに吐き気を催しているので、この点については外部の意見をお願いします。

この研究の目標、私たちの制約、潜在的な混乱、およびこの「混乱」が問題ではないと私が考える理由を以下に説明します。各セクションを読むときに、私の全体的な質問に留意してください。

私が説明するデザインには混乱がありますか？

[この実験の詳細は変更されましたが、私の質問をするために必要な必須要素は同じままです]

実験目標

白人男性によって書かれたエッセイが、白人女性、黒人男性、または黒人女性によって書かれたエッセイよりも有利に評価されるかどうかを判断したいと思います（エッセイ著者変数）。また、高品質または低品質の助成金（品質変数）で見つかったバイアスがより多く現れるかどうかを判断したいと考えています。最後に、12の異なるトピック（トピック変数）について書かれたエッセイを含めたいと思います。ただし、実質的に重要なのは最初の2つの変数のみです。トピックは論文ごとに異なる必要がありますが、トピックごとに評価がどのように異なるかに実質的に関心はありません。

制約

参加者の数と収集できるエッセイの数には制限があります。その結果、オーサーシップは参加者間で完全に操作することも、エッセイ間で完全に操作することもできません（つまり、各エッセイは複数の条件に割り当てられなければなりません）。
各エッセイには白人男性、白人女性、黒人男性、黒人女性のバージョンがありますが、各エッセイは高品質と低品質のいずれかで、1つのトピックのみになります。または、この制約を別の方法で言えば、エッセイ内で品質やトピックを操作することはできません。これらは特定のエッセイに固有の特性であるためです。
疲労のため、特定の参加者が評価できるエッセイの数には制限があります。
特定の人が読むエッセイはすべて、単一のトピックに関するものでなければなりません。言い換えると、各参加者が同様のトピックのエッセイのみを読むようにする必要があるため、エッセイを完全にランダムに参加者に割り当てることはできません。
エッセイの多くは黒人または女性の著者によって書かれているため、実験の目的について参加者に疑わせたくないので、各参加者は、白人ではない男性著者によって執筆されたと思われるエッセイを1つしか表示できません。

提案された設計

私の提案する設計では、最初に各エッセイを4つの異なる著者バージョン（白人男性、白人女性など）に操作します。同様のトピックの4つのエッセイを使用して「セット」を定義します。各セットは、2つの高品質のエッセイと2つの低品質のエッセイで構成されます。各参加者は、下の図に示すように、所定のセットから3つのエッセイを受け取ります。各参加者は、自分が割り当てられた3つのエッセイのそれぞれに単一の評価を提供します。

実験計画

潜在的な交絡

私の同僚は、上記の設計には混乱が含まれると考えています。問題は、高品質のエッセイが白人ではない男性作家による執筆に割り当てられた場合、常に1つの高品質のエッセイと1つの低品質のエッセイとペアになることです（エッセイ1については、参加者1-3を参照してください図で）。一方、同じエッセイが白人男性作家による執筆に割り当てられている場合、1つの高品質のエッセイと1つの低品質のエッセイが3回（エッセイ1、参加者4-6の場合）、2つの低品質のエッセイ3回（エッセイ1、参加者7-9の場合）。

低品質のエッセイにも同様の問題があります。低品質のエッセイに白人以外の男性著者がいる場合、常に低品質のエッセイと高品質のエッセイが表示されます（エッセイ3については、参加者7-9を参照）。ただし、同じエッセイに白人男性著者がいる場合、1つの高品質のエッセイと1つの低品質のエッセイで3回（エッセイ3、参加者10-12）、2つの高品質のエッセイで3回（エッセイ3、参加者1-3）。

上記のパターンが問題になる可能性があるのは、「コントラスト効果」の存在を仮定した場合です。具体的には、高品質のエッセイが1つの低品質のエッセイと1つの高品質のエッセイ（合理的な仮定）とペアリングされる場合よりも、2つの低品質のエッセイとペアリングされる場合の平均でより好意的に評価される場合、白人男性のエッセイは、著者以外の理由による白人女性、黒人男性、および黒人女性のエッセイ。

高品質のエッセイのコントラスト効果は、低品質のエッセイのコントラスト効果によってバランスがとれる場合とされない場合があります。つまり、2つの高品質のエッセイと対になった低品質のエッセイが特に不利に評価される場合とそうでない場合があります。とにかく、私の同僚の主張では、あらゆる種類のコントラスト効果の可能性により、白人男性によって書かれたエッセイが他の著者のエッセイよりも好意的に評価されるかどうかを判断するために、このデザインに問題が生じます。

潜在的な交絡が問題ではないと思う理由

私にとって重要なのは、コントラスト効果が存在する場合でも、白人男性のエッセイが他のエッセイとは異なる評価の程度を推定できるかどうか（つまり、興味のある効果を推定できるかどうか）です。そのため、コントラスト効果を含む50個のデータセットをシミュレートし、対象の効果をテストするモデルに適合するシミュレーションを実施しました。

特定のモデルは、エッセイ（各エッセイが複数の参加者によって評価される）および参加者（各参加者が複数のエッセイを評価する）のランダムインターセプトを含む混合効果モデルです。エッセイレベルには、人種、性別、およびそれらの相互作用のランダムな勾配が含まれ（両方の変数はエッセイ内で操作されます）、参加者レベルには品質のランダムな勾配が含まれます（参加者内で品質が操作されます）。関心のある効果は、人種、性別、人種と性別の間の相互作用、およびこれらの変数と品質のそれぞれの間の高次相互作用の効果です。このシミュレーションの目的は、データにコントラスト効果を導入すると、人種、性別、人種と性別の相互作用、これらの変数と品質の間の高次の相互作用。詳細については、以下のコードチャンクを参照してください。

シミュレーションによると、コントラスト効果の存在は、関心のある効果の推定値にバイアスをかけません。さらに、コントラスト効果のサイズは、設計の他の効果と同じ統計モデルで推定できます。私にとって、これはすでに、私の同僚によって特定された「コントラスト効果」が混乱ではないことを示唆しています。しかし、私の同僚は懐疑的なままです。

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

繰り返しますが、私の全体的な質問は、私が説明した設計に混乱がありますか？交絡が存在しない場合、潜在的な「コントラスト効果」が交絡ではない理由の説明に興味があるので、これを同僚に説明できます。

— パトリック・S・フォーシャー
ソース

ただコメント：エッセイはどのように評価されますか？複数の評価者が採用される場合、異なる評価者の評価はあまり一貫していないことを覚えておく必要があるので、評価者間のばらつきも覚えておく必要があるため、お願いします。

— ティム

各参加者は、割り当てられた3つのエッセイのそれぞれに1つの評価を提供します。

— パトリックS.フォーシャー

評価手順に関する詳細を質問の本文に追加しました。

— パトリックS.フォーシャー

lmer（）に不慣れな私たちにとって、分析と「関心のある効果」について簡単に説明できますか？

— アンソニー

問題ありません、@ Anthony。これらの詳細を質問に追加しました。

— パトリックS.フォーシャー

関連する交絡について心配します-「各参加者は、白人以外の男性著者によって執筆されたと思われるエッセイを1つしか表示できません。なぜなら、あまりにも多くのエッセイが多すぎるため、黒人または女性の著者によって書かれた。

これは、結果に関係なく、白人男性の著者と他の著者の違い、または単に「多数派の作家」と「少数派の作家」の違いが原因であるかどうかを判断できないことを意味します。

示されているデザインがプレゼンテーションの順序も反映している場合（そうではないと想定しますが、確認する方が良いでしょう）、それは別の問題のようです。

— チャーリー
ソース

図は、表示順序を反映していません。

— パトリックS.フォーシャー

「多数派」と「少数派」の著者であるとは、特定の人種/性別の組み合わせ（つまり、白人男性2/3、その他1/3）のエッセイの割合を意味すると思いますか？参加者ごとに、白人男性のエッセイが他のエッセイよりも多くのエッセイを提示しているのは事実です。しかし、私たちが勉強したいエッセイ作家の人口の大部分は白人男性です。この「混乱」（実際には問題の一部である可能性がある）は、白人男性と少数派が書いたエッセイのちょうど半分がある人工的な状況を作り出すよりも問題が少ないと判断しました。

— パトリックS.フォーシャー

各参加者が2つのエッセイ（白人男性1人と他の男性1人）のみを評価した場合、デザインはより単純ではないでしょうか？そうです、参加者は2つのエッセイを評価しますが、パイルにはほとんど男性のエッセイが含まれていると信じてもらいます。彼らはたまたまこれらの2つを偶然取得しました。カードの魔術師はこれを「強制」と呼びます。これに参加者が多すぎる場合、テストするトピックは12未満です。十二はたくさんです。

— ドラギス
ソース

このサンプルサイズで、どうすれば結論を出すことができますか？この実験を何度も繰り返した場合、白人男性と黒人男性の両方を取得する4つのマーカーは、16回のうち1回の試行で白人男性にすべてより良い点数を与えます。

— ヒュー・モリス
ソース

これは、この調査の非常に小さなバージョンです。調査全体では、432人がエッセイを評価しています。

— パトリックS.フォーシャー