Palantirのアジア差別事件:確率はどのように計算されましたか?


14

労働省がアジア人に対する差別で彼らを非難しているパランティールの事例について、私はこの記事を読みました。誰がどこからこれらの確率推定値を取得したか知っていますか?

項目(a)で1/741が得られません。

(a)QAエンジニアポジションでは、730人以上の適格な応募者のプール(約77%がアジア人)から、Palantirは6人の非アジア人応募者と1人のアジア人応募者のみを採用しました。OFCCPによって計算された悪影響は、3つの標準偏差を超えています。この結果が偶然に発生した可能性は、741分の1です。

(b)ソフトウェアエンジニアの立場では、1,160人を超える適格な応募者(約85%がアジア人)のプールから、Palantirはアジア以外の応募者14人とアジアの応募者11人のみを採用しました。OFCCPによって計算された悪影響は、5標準偏差を超えています。この結果が偶然に発生した可能性は、340万分の1です。

(c)QAエンジニアのインターンポジションでは、130人を超える適格な応募者のプール(約73%がアジア人)から、Palantirは17人のアジア人以外の応募者と4人のアジア人応募者を採用しました。OFCCPによって計算された悪影響は、6標準偏差を超えています。この結果が偶然に発生した可能性は、およそ10億分の1です。


1/741以外のものを得るために行った計算を表示できますか?
ベンボルカー16

1
私の推定は片側だった-両側仮説検定のようにそれを倍にすると、その1/741の数値にかなり近くなります。
グレゴール-モニカを

3
この場合、倍増は意味をなさないことに同意します。何が行われたのかを推測しようとしていました。問題は何が正しい答えではありませんが、彼らどのようにこの見積りに着きまし
グレゴール-モニカの

1
誰かがテキストの引用にPDFのスクリーンショットを変換した場合、それは素晴らしいことだ...
アメーバは回復モニカ言う

1
finereaderonline.comを使用してスクリーンショットをOCRできました。
アメーバは、モニカを復活させる

回答:


20

これを差別事例の経験からリバースエンジニアリングします。「741に1つ」などの値がどこから来たのかを明確に確認できます。しかし、翻訳では多くの情報が失われたため、私の再構築の残りの部分は、法廷の設定で人々がどのように統計を行うかを見たことに依存しています。詳細のいくつかしか推測できません。


差別禁止法が1960年代に可決されたときから(タイトルVI)、米国の裁判所はp値を調べ、および0.01のしきい値と比較することを学びました。また、一般に「標準偏差」と呼ばれる標準化された効果を調べ、「2〜3つの標準偏差」のしきい値と比較することも学びました。差別訴訟の一応の訴訟を確立するために、原告は通常、これらのしきい値を超える「異なる影響」を示す統計計算を試みます。そのような計算がサポートされない場合、通常ケースは進むことができません。0.050.01

原告の統計専門家は、しばしば、これらのよく知られた用語で結果を表現しようとします。一部の専門家は、雇用決定が純粋にランダムであり、従業員の他の特性によって覆されていないと仮定して、帰無仮説が「悪影響なし」を表す統計テストを実施します。(片側か両側かは、専門家と状況に依存する可能性があります。)次に、標準正規分布を参照して、この検定のp値をいくつかの「標準偏差」に変換します。 - 標準の標準が元のテストと無関係である場合でも。 このラウンドアバウト方式で、彼らは結論を明確に裁判官に伝えたいと考えています。

分割表に要約できるデータの推奨テストは、フィッシャーの正確検定です。「Exact」という名前が出現することは、原告にとって特に喜ばしいことです。これは、エラーなしに行わた統計的な決定を意味するためです(それが何であれ!)。

ここに、労働省の計算の私の(投機的再構成)があります。

  1. 彼らは、(のようなフィッシャーの正確確率検定、またはそれのような何かを実行したランダム化を経て決定され、p値とテスト)。このテストでは、Matthew Gunnの回答で説明されている超幾何分布を想定しています。(この苦情に関係する少数の人々については、超幾何分布は正規分布でうまく近似されていません。)χ2

  2. 彼らは、そのp値を通常のZスコア(「標準偏差の数」)に変換しました。

  3. 彼らは、Zスコアを最も近い整数に丸めました:「3つの標準偏差を超える」、「5つの標準偏差を超える」、「6つの標準偏差を超える」。(これらのZスコアのいくつかはより標準偏差に切り上げられているため、「超過」を正当化することはできません。できることはそれを引用することだけです。)

  4. 苦情では、これらの積分Zスコアがp値に変換されました!再び、標準正規分布が使用されました。

  5. これらのp値は、(おそらく誤解を招くような方法で)「この結果が偶然に発生した可能性」として説明されます。

1/12801/5650001/58000000730116013073011601303.164.645.521/7411/35000001/1000000000


Rこれらの計算を実行するために使用されるコードを次に示します。

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
うわー、これができるとは思いもしませんでした。これは怖いです。
アクサカル

7
(+1)CSI:統計。
Firebug

5

超幾何分布を使用してpvalを適切に計算する方法:

knKN

片側テストの場合、MATLABでは、pval = hygecdf(k, N, K, n);またはこの場合pval = hygecdf(1, 730, 562, 7)は約.0007839を呼び出すことができます。

平均と標準偏差は次のように与えられます:

μ=nKNs=nKNNKNNnN1

χ2

OFCCPが使用する可能性のある式を探している場合、私が見たこのサイトはおそらく役に立つかもしれません:http ://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

いくつかの計算の要約:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
私は同じ結果を得ましたが、異なっていました。1/741に近いではありません
Aksakal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.