審査員選考のバイアス?


14

友人は、ju審員の選択が人種的に偏っているように見える刑事裁判の後、控訴でクライアントを代表しています。

ju審員プールは、4人種グループの30人で構成されていました。検察は、これらの人々のうち10人をプールから排除するために、強引な挑戦を使用しました。各人種グループの人数と実際の課題の数は、それぞれ次のとおりです。

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

被告は人種グループCからであり、被害者は人種グループAおよびDからでした。したがって、先験的な懸念はグループCが過負荷で、グループAおよびDが過負荷であるかどうかです。法的には(IIUC; IANAL)、弁護側は人種的偏見を証明する必要はなく、単にデータが偏見を示しているように見えることを示すだけで、検察に各人種的問題を非人種的に説明する負担をかけるだけです。

次の分析はそのアプローチにおいて正しいですか?(計算は問題ないと思います。):

nCr(30,10)= 30,045,015個の10個のプールメンバーの個別のセットがあります。これらの明確なセットのうち、433,377セットには(グループAとDの2つ以下のメンバーを合わせた)(グループCの4つ以上のメンバー)の両方が含まれるとカウントします。

したがって、グループCよりもグループAとDを優先する見かけのバイアスの観測レベルに達する可能性(10のチャレンジのセットに含まれない優先手段)は、これらの比率、433/30045 = 1.44%になります。

したがって、帰無仮説(そのようなバイアスはありません)は5%の有意水準で拒否されます。

この分析が方法論的に正しい場合、学術的/専門的な参考文献(ウィキペディアではない)を含めて、裁判所に説明する最も簡潔な方法は何でしょうか?議論は単純に思えますが、どうしてそれが正しいのであって、シェナンガンではないことを法廷に最も明確かつ簡潔に証明できるでしょうか?


更新:この質問は、控訴ブリーフの第三の議論として検討中だった。ここでの議論の技術的な複雑さ(弁護士の観点から)と法的な先例の明らかな欠如を考えると、弁護士はそれを提起しないことを選択したので、この時点で問題はほとんど理論的/教育的です。

1つの詳細に答えるには、課題の数である10は事前に設定されていると思います。

思慮深く、やりがいのある答えとコメント(ありがとう、すべて!)を研究した後、ここには4つの別個の問題があるようです。少なくとも、私にとっては、それらを個別に検討すること(または分離できない理由についての議論を聞くこと)が最も役立ちます。

1)ジュリープールの課題における、被告人と被害者の両方の人種の考慮は、法的な懸念であるか?上訴の議論の目的は、合理的な懸念を提起することだけであり、これにより、検察が個々の異議申し立ての理由を述べるという司法命令につながる可能性がある。これは私には統計的な問題ではなく、社会的/法的問題であるように思われます。これは弁護士の裁量によるものです。

2)(1)を仮定して、対立仮説(定​​性的には、被告の人種を共有するju審員に対するバイアス、犠牲者の人種を共有する人を支持する)の選択はもっともらしいか、それは容認できない事後ですか?私の平凡な観点から、これは最も困惑する質問です-はい、もちろん、それを観察しなければ、それを提起しません!私が理解しているように、問題は選択バイアスです:テストでは、このju審員プールだけでなく、そのようなすべてのall審員プールの宇宙を考慮する必要があります。これには、防衛が矛盾を観察せず、したがって問題を提起しようとしないすべてのもの。これにどのように対処しますか?(たとえば、Andyのテストはどのようにこれに対処しますか?)これについては間違っているかもしれませんが、ほとんどの回答者は潜在的に事後的に悩まされていないようです被告のグループのみに対するバイアスの片側検定。(1)を仮定して、被害者グループのバイアスを同時にテストすることは、方法論的にどのように異なりますか?

3)(2)で述べた定性的対立仮説の選択を規定する場合、それをテストするための適切な統計量は何ですか?私が提案する比率は、より単純な「Cに対するバイアス」代替仮説に対するAndyの検定の控えめな類似であるように見えるため、ここで私は応答に最も困惑しています(私の検定もすべてのケースをさらにカウントするため、より保守的です)正確に観察されたカウントだけでなく、テールでも)

両方のテストは、同じ分母(サンプルの同じ宇宙)を持ち、分子がそれぞれの対立仮説に対応するサンプルの頻度に正確に対応する単純なカウントテストです。だから@whuber、なぜアンディのように「規定のヌル[同じ]および代替[記述]仮説に基づいて、Neyman-Pearsonの補題を使用して正当化できる」という私のカウントテストと同じではないのですか?

4)(2)と(3)を規定する場合、懐疑的な控訴裁判所を納得させる判例法の参照はありますか?証拠から現在まで、おそらくそうではありません。また、このアピールの段階では、「専門家証人」の機会はないので、参照がすべてです。


回答とコメントを学習した後、質問が更新されました(追加されました)。
JD月

素晴らしい要約をありがとう!ポイント(3)に対応するために、私の懸念は、あなたのテスト(正しく理解できれば)がデータ自体に動機付けられた対立仮説を採用することです。したがって、結果を可能な限り強くするために事後的に構築されたようです。先験的に可能な限り広く予測可能な関連クラスの代替に基づいており、ネイマンピアソンの拒絶領域で実施されたテストは、より強力な論理的基盤を持ち、それにもかかわらず、データを見た後に提案されたという批判を受けにくい。
whuber

おかげで、@ whuberはもっともらしい有用な批判です-私が最初から質問していたことは非常に多くあります。しかし、それは(3)の前でさえ、私の(2)を失敗させないでしょうか?もしそうなら、私の(3)はまだ答えられていないように見えます-すなわち、1つが規定されている場合、これは良い統計でしょうか(2)?
JD月

回答:


7

標準的な統計ツールを使用してあなたの質問に答える方法を次に示します。

以下は、ju審員のグループメンバーシップが与えられた場合に拒否される確率に関するプロビット分析の結果です。

まず、データは次のようになります。グループの30の観測値とバイナリ拒否インジケーターがあります。

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

以下に、個々の限界効果と共同テストを示します。

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

ここでは、グループBと比較してグループA、C、およびDで拒否される確率の差がゼロであるという個々の仮説をテストしています。全員がグループBと同じくらい拒否される可能性が高い場合、これらはゼロになります。最後の出力では、グループAとDの審査員は却下される可能性が低く、グループCの審査員は却下される可能性が高いことがわかります。これらの違いは統計的に有意ではありませんが、兆候はあなたの偏見の推測と一致します。

ただし、で3つの差がすべてゼロであるという共同仮説を棄却できます。p=0.0436


補遺:

グループAとDを1つに結合すると、犠牲者の人種が共有されるため、プロビットの結果がより強くなり、対称性が向上します。

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

これにより、Fisherのexactで一致した結果が得られます(5%ではありません)。

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

どうもありがとうございました!ここで方法論の問題を理解するのを手伝ってもらえますか?特に、(1)先験的懸念の特殊性にもかかわらず、無向比較テスト(IIUC)、および(2)単なる組み合わせの引数ではなく、分布の仮定を行うテストを使用する理由?
JD月

(1)が理解できるかどうかわかりません。(2)については、ロジットモデルで非常によく似た結果が得られます。これは、異なる分布の仮定を行うため、ある程度の堅牢性があります。パラメトリックではない何かをするのに十分なデータはありませんが、それはこの分野での私自身の無知かもしれません。
Dimitriy V. Masterov

1
再(1)。私が意味することは-あなたのテストは2テールであるようですが、先験的な懸念は1テールを許可しますか?
JD月

1
私を不安にさせるこの分析の側面は、その明らかな重要性(とにかく5%レベルで)はグループCで発生する課題だけでなく、グループAの課題の相対的な不足にも起因することです。無関係であること:先験的に疑われでしょうか?グループCの有利な役割は(被告のグループと一致することで)明白ですが、他のグループ、または(仮説的に)他のグループ間の明白な不公平の場合でも、被告の主張には関係がないように思われます彼らのグループに基づく彼らに対する差別。
whuber

ところで、あなたが、グループBの分析ではなく、グループC.を行って表示されます
whuber

3

アドホックな統計的手法を導入することは、法廷では認められないと思います。「標準プラクティス」である方法を使用することをお勧めします。そうでなければ、おそらく新しいメソッドを開発するための資格を証明できます。

もっと明確にするために、あなたのメソッドがDaubertの標準を満たすとは思いません。私はまた、あなたの方法がそれ自体で学術的な参照を持っていることを非常に疑います。おそらく、それを紹介するために統計の専門家の証人を雇う必要があります。簡単に打ち消されると思います。

ここでの基本的な質問は、「ju審員は人種のグループ分けとは無関係でしたか?」

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

フィッシャーの正確検定を使用すると、同様の結果が得られます。

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

私の解釈では、人種的偏見を主張する証拠はあまりないということです。


1
χ2

@jvbraunに感謝します。アドホックな方法が禁止されているという点は説得力があります。カウントと分割は私にとって特にエキセントリックではないように見えますが、明らかに他の人は説得力がありません!
JD 14

これは実際には周辺が固定されているケースの1つであるため、フィッシャーの正確なテストは多くの人にとってより適切なはずです。Daubertの議論では、少し後戻りします。専門家に電話すると、Daubertの動きの影響を受けます。(皮肉なことに、統計を提示する素人は、規則702で規定されたそのような評価の対象ではないと主張している人もいます。)IMO これらの特定の状況では、これらの統計手法のいずれも法理を持っているとは思えません。
アンディW 14

χ2

χ22/24/6

3

私は尋ねた、以前に同様の質問を(参考のためにここで私は議論する特定のケースです)。弁護側は、Batsonの異議申し立てでの差別の基本的なケースを単純に示す必要があります(米国刑法を想定)。したがって、仮説テストはおそらく必要以上に大きな負担になります。

だから:

  • n=30
  • p=6
  • k=4
  • d=10

Whuberの以前の答えは、この特定の結果が超幾何分布によって決定される確率を与えます。

(pk)(npdk)(nd)

どのウォルフラムアルファは言いますが、この場合に等しいです:

(64)(306104)(3010)=7611310.07

残念ながら、私が提供したリンク以外のリファレンスはありません-ウィキペディアのページから超幾何分布の適切なリファレンスを掘り下げることができると思います。

これは、人種グループAとDが「過小評価されている」かどうかについての質問を無視します。私はあなたがこれについて法的議論をすることができると懐疑的です-それは平等保護条項の奇妙なねじれでしょう、この特定のグループはあまりにも保護されています!、飛ぶとは思わない。(私は弁護士ではありません-だから一粒の塩を使ってください。)

仮説検定が本当に必要な場合、どうすればよいかわかりません。を生成できます(3010)χ2


ブログ投稿で考えを更新しました。私の投稿はBatson Challengesに固有のものであるため、別の状況を探すかどうかは不明です(1と2の更新はBatson Challengesのコンテキストでは意味がありません)。

関連する記事1つ見つけることができました(リンクで完全に入手可能)。

ガストワース、JL(2005)。事例コメント:挑戦的挑戦に関するデータの分析のための統計的試験:ジョンソンv。カリフォルニア州における差別の一応の事例を確立するために必要な証明の基準を明確にする。法律、確率とリスク、4(3)、179-185。

それは、超幾何分布を使用するための同じ提案を与えました。私のブログ投稿では、カテゴリーを2つのグループにまとめると、フィッシャーの正確検定と同等になることを示しています。

kk=5k=6nnd

誰かが実際にこれ(または分数以外のもの)を使用する判例法に気づいたら、興味があります。


1
ありがとう、アンディ。(1)私の弁護士の友人は、Cが過負荷であり、Aが過小であると主張することは完全に許容可能/有用であると考えています。(2)「どのような検定統計量」と言います。私はその混乱を見つけます-超幾何を使用して0.07を計算するとき、どのテスト統計を使用していますか?それは、疑わしいケースの合計ケースに対する比率として確率を計算することです。同様に、疑わしいケースをより狭く定義することを除いて、それはまさに私の分析が行うことです。
JD月

@JonathanMarch-検定統計量を使用しません。これは、超幾何分布に従ってランダムに(他の条件が与えられて)6つのクラスCから4つが選択される確率です。方向性テストの動機は理解していますが、これは通常のt検定のケースではありません。その場合、連続的なヌル分布があるため、p値を与えるには、代替を面積として定義する必要があります。ここにあるようなPMFディストリビューションを使用して暗黙的に行う必要はありません。
アンディW 14

1
k=5k=60.07

1
86/11317.6%

1
ジョナサン、あなたの利益のために、私はあなたに苦労をします(野党の専門家がそうするように)。理論的に正当化せずにアドホック統計を使用しているため、あなたのアプローチは無効だと思います。小さなp値を生成するためだけに構築されているようです。Andyの統計量は、規定された帰無仮説と対立仮説に基づいて、Neyman-Pearson補題を使用して正当化できます。あなたの統計は、結果の事後調査に基づいているようであり、voir direの前に(つまり、独立して)主張されていた代替仮説に対応していないようです。
whuber

0

複数のテストの問題を忘れないでください。100人の弁護人がそれぞれ控訴する理由を探しているとします。審査員の拒否はすべて、各審査員候補に対してコインを投げたり、サイコロを転がしたりして行われました。したがって、人種的に偏った拒絶はありませんでした。

100人の弁護士それぞれが、皆さん全員が同意する統計的テストを行っています。その100のうちおよそ5つは、「偏っていない」という帰無仮説を棄却し、控訴の根拠があります。


IIUC、彼らは裁判官が個々の拒否の理由の調査を命じる根拠を探しているでしょう。そのような検査がこれらの100のケースのうち5つで発生した場合、実際に問題になりますか?
JD月
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.