モデル構築における社会的差別の回避


10

アマゾンの最近の求人スキャンダルからインスピレーションを得た質問があります。求人プロセスで女性に対する差別があったとして非難されました。詳細はこちら

Amazon.com Incの機械学習スペシャリストは大きな問題を発見しました。彼らの新しい採用エンジンは女性が好きではありませんでした。
チームは2014年以来、優秀な人材の検索を機械化することを目的として求職者の履歴書をレビューするためにコンピュータープログラムを構築しています...
...同社の実験的採用ツールは、人工知能を使用して1〜5つ星の範囲の求職者のスコアを与えました...
...しかし、2015年までに、同社は新しいシステムがソフトウェア開発者の求人やその他の技術的な投稿の候補者を性別に中立的な方法で評価していないことに気付きました。
これは、Amazonのコンピューターモデルが、10年間に渡って会社に提出された履歴書のパターンを観察することで、応募者を精査するように訓練されたためです。ほとんどが男性から来ており、テクノロジー業界全体で男性が優勢であることを反映しています。(技術における性別の内訳については、こちらを参照してください:こちらをご覧ください)実際、Amazonのシステムは、男性の候補者が望ましいことを教えてくれました。「女性のチェスクラブのキャプテン」のように「女性の」という言葉を含む履歴書にペナルティを課した。そして、問題に詳しい人々によると、それは2つのすべての女性の大学の卒業生を格下げした。彼らは学校の名前を明記しなかった。
Amazonは、これらの特定の条件に中立になるようにプログラムを編集しました。しかし、それは、マシンが差別的であると証明することができる候補を分類する他の方法を考案しないという保証ではなかった、と人々は言った。
シアトルの会社は、幹部がプロジェクトへの希望を失ったため、最終的に昨年の初めまでにチームを解散しました...
...会社の実験は...機械学習の限界におけるケーススタディを提供します。
...カーネギーメロン大学で機械学習を教えるニハール・シャーのようなコンピューター科学者は、まだやらなければならないことがたくさんあると言います。
「アルゴリズムが公正であることを保証する方法、アルゴリズムが本当に解釈可能で説明可能であることを確認する方法-それはまだかなり遠い」と彼は言った。

MASCULINE LANGUAGE
[Amazon]は、Amazonのエジンバラエンジニアリングハブにチームを編成し、約12人に成長しました。彼らの目標は、ウェブを迅速にクロールし、採用に値する候補者を見つけることができるAIを開発することでした、と問題に詳しい人々は言った。
グループは、特定の職務と場所に焦点を当てた500台のコンピューターモデルを作成しました。彼らはそれぞれ、過去の候補者の履歴書に現れた約50,000の用語を認識するように教えました。アルゴリズムは、さまざまなコンピューターコードを書く能力など、IT応募者に共通のスキルにほとんど重要性を割り当てないことを学びました...
代わりに、テクノロジーは、男性エンジニアの履歴書でより一般的に見られる動詞を使用して自分自身を説明する候補者を支持しました。ある人は、「執行された」と「捕らえられた」と語った。

新しい個人の募集に役立つ5つ星のランキングなど、個人データからの出力を予測する統計モデルを構築するとします。倫理的な制約として、性差別も避けたいとしましょう。性別を除いて2つの厳密に等しいプロファイルが与えられた場合、モデルの出力は同じになるはずです。

  1. 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか?

  2. 性別による差別がないことを確認するにはどうすればよいですか?

  3. 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?


1
アマゾンの想定される求人スキャンダルに関する記事への参照は、質問の本文に含めることが重要だと思います。「差別」は(用語の定義方法によって異なりますが)まったくなかったと主張する人もいますが、採用された男性と女性の単純な不均衡があるため、「差別」の定義を提供してください。
StatsStudent

1
ここでは標準的な答えが不可能である可能性についてはどうですか?あなたはそれに対処できますか?再閉鎖を検討しています。
ガン-モニカを元に戻す

3
「モデルの出力に対する性別の影響の欠如」-なぜこれが適切な定義であるのかわかりません。モデルに性別と呼ばれる機能がないと仮定します。おそらく機能はありません。それから、それが女性であるとされた他のものを見ることによってモデル化し、女性は仕事にあまり適していないのでダウングレードしますか?海兵隊員など、女性の体力が低下する仕事はたくさんあります。それはあなたができないという意味ではありません。素晴らしい女性を見つけることができませんが、それらのほとんどは適合しません。
Aksakal

2
@Lcrmorin、なぜ身体だけなの?プログラマーが女性と男性の両方に最適だと思うのはなぜですか?明らかな理由はわかりません。高給の仕事だけが問題なので、私は疑わしい。たとえば、男性はもっと投獄されるのですが、女性も同じ率で投獄されるようにプッシュしてみませんか?差別を構成するものの適切な定義が最も重要です
Aksakal

1
これは、因果効果を特定しようとする社会科学のあらゆる応用統計コースでカバーされていると思います...省略された変数バイアスなどの特定、「第X因子の制御」など
seanv507

回答:


4

このペーパーは、特に言語ベースのモデルでジェンダーバイアスをナビゲートする方法の優れた概要を提供します。単語埋め込みのバイアスを解除-Bolukbasi et。al。。素敵なブログの要約はここにあります:

https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html

ここには、リソースの大まかな一覧があります。

https://developers.google.com/machine-learning/fairness-overview/

上記のリンクには、性別による偏見を和らげるためのさまざまなテクニックがあります。一般的に言えば、それらは3つのクラスに分類されます。

1)データのアンダー/オーバーサンプリング。これは、高品質の女性の履歴書をオーバーサンプリングし、男性の履歴書をアンダーサンプリングすることを目的としています。

2)「性別部分空間」を差し引く。モデルが性別でバイアスされている場合は、履歴書の埋め込みを使用して性別を直接予測することで、モデルがそうであることを実証できます。このような補助モデルを構築した後(どちらかの性別に属する一般的な用語をサンプリングし、PCAを適用するだけでも)、事実上、モデルからこの次元を差し引いて、履歴書を性別中立に正規化できます。これは、Bolukbasiの論文で使用されている主な手法です。

3)敵対的学習。この場合、実際の履歴書と区別がつかない高品質の女性の履歴書をより多く生成することで、追加のデータを生成しようとします。


1
ここには問題はないが、何かが欠けている。これは病気を無視しながら症状を治療していますか?PCの言語ソリューションはまったくソリューションですか、それとも問題がありますか?言語は感情の主要な情報源ではなく、感情を表現する手段にすぎません。感情は状況に対する反応です。言語で説明するのではなく、状況を修正します。
カール・

@Carl:データセットがすでにバイアスで腐っている場合、修正するのは非常に困難です。政治的正しさは、偏見を緩和する試みです。MLのケースでは、性別に基づく予測を、純粋にスキルに基づく予測に偏らせることから、モデルを導きます。そうでなければ、そのようなモデルはおそらく女性にペナルティを課し、各職業でのスキルに非常に異なる採点を割り当てるでしょう。バイアスが発生するその他の方法と、物理的な変更(データの変更ではなく)によってそれらを修正する方法については、Dave Harrisの回答をお読みください
Alex R.

私はデイブの答えにコメントしたので、あなたの提案はあなたがそれを逃したことを示しています。また、嫌いな仕事を勝ち取るには問題があるという点を見逃しているかもしれません。保持の問題と作業環境を修正します。女性をより「魅力的な」ものにすることは何も解決せず、問題を悪化させる可能性があります。仕事に関しては、「結婚すること」ではなく「結婚すること」が問題です。
Carl

@Carl:OPの質問は既存のデータセットで統計モデルを構築する方法について明確に尋ねているため、ここで何を議論しているのかわかりません。私が提供したリンクは、すぐに使える言語モデルがすでに隠れたバイアスを含んでいる可能性があることを示しています。仕事を十分長く続けている人は、平凡すぎて他の場所で仕事を見つけられない可能性が高いと主張することもできます。最適化しているKPIに関係なく(これは関連性がありますが、完全に別のトピックです)、モデルには依然として性別バイアスが見られる場合があります。
Alex R.

1
同意した。あなたは質問に答えました。ただし、技術系の仕事の女性の定着率は低く、問題を特定できませんでした。だから答えは女性への害悪です。使用すると悲惨な状態になります。統計学者は、自分たちの仕事を前後関係で見て、単純に推測されたものよりも適切な質問を特定する道徳的責任を負います。
Carl

9

これはあなたの質問に対する答えではなく、コメントに収めるには長すぎるいくつかの考えです。

これらの問題について考える際に考慮しなければならない1つの問題は、すべてのモデルがを識別し、データに存在する関連付けに基づいてそれを行うことです。それが間違いなく予測モデルの目的です。たとえば、男性は女性よりも犯罪を犯す可能性が高いため、この情報にアクセスできるほとんどすべてのモデルがそのような推論を引き出します。

しかし、男性が一般に犯罪を犯した可能性が高いように見えても(他の条件は同じです)、たとえジェンダーに基づいて部分的に有罪判決を下すべきだという意味ではありません。むしろ、そのような決定を行う際には、単なる連想に関する情報ではなく、犯罪の直接的な証拠を要求するべきです。別の例として、病気になる可能性が高い人は本当に高い保険料を支払うに値するのでしょうか?

したがって、差別に関して言えば、問題はモデル自体が不公平であるというよりはむしろ倫理的適用を扱っていると私は主張します。特定の状況でモデルを使用しているときに差別やその他の不当な結果が続くのではないかと心配している場合は、モデルを使用するべきではありません。


2
社会的差別を回避するために構築されたモデルは人間よりもパフォーマンスが優れているという最後の文について議論しますが、それが私がここにいる理由ではありません。私は社会的差別のより良い定義で私の投稿を編集します。
lcrmorin

私たちの裁判制度は男性をもっと罰するつもりはないと思いますが、それはそうです。架空のAmazonアルゴリズムについても同じことが言えます。私は彼らが女性を差別したかったのではないかと思いますが、アルゴは女性があまり体力がなく、とにかく差別されていることを学びました。
Aksakal

あなたはOPの質問から大きく外れました:コントラスト差別 n 1:偏見に基づく個人またはグループの不当な扱い2:2つ以上の刺激が区別される認知プロセス。[WordNet]。OPは最初の定義について質問しており、2番目の定義については回答しています。
Alexis

@Alexis OPが最初の定義についてのみ話していることは、実際にははっきりしていません。引用:「統計的に判別できるが、倫理的な理由でなりたくないデータのモデルをどのように修正すればよいですか?」これは、たとえそれらが使用するのに不当な特性ではない場合でも、性別によって統計的に異なるものに対処したいことを意味するように思われます。ちなみに、この2つの差別の概念には明確な違いはありません。公正だと思う人もいれば、不公平だと思う人もいます。
Effが

応募人数とプロフィールの両方の点で、性別に関して重要な違いがあります。私の目標は、プロファイルが同じで性別が同じでない2人が等しく扱われるようにすることです。
lcrmorin

6

以前は、ソフトウェア管理のベストプラクティスを開発するプロジェクトに取り組んでいました。私は現場でおよそ50のソフトウェアチームを観察しました。サンプルは約77でしたが、最終的には約100のチームが表示されました。資格や学位などのデータを収集するだけでなく、さまざまな心理データや人口統計データも収集しました。

ソフトウェア開発チームにはいくつかの非常に重要な自己選択効果があり、性別とは関係ありませんが、性別と強く相関しています。また、マネージャーは自分自身を複製する傾向があります。人々は自分が快適な人を雇い、彼らは自分自身に最も快適です。また、人々が認知的に偏った方法で評価されているという証拠もあります。マネージャーとして、私が仕事の開始時に迅速に到着することを非常に重視していると想像してください。それから私はそれを評価します。作業が完了したことを気にしている別のマネージャーが、まったく異なるものを重要であると評価する場合があります。

あなたは男性が異なる方法で言語を使用することを指摘しましたが、異なる性格を持つ人々が異なる方法で言語を使用することも事実です。エスニック言語の使用法にも違いがあるかもしれません。たとえば、ハーバード大学とアジアの入学における現在の論争を参照してください。

ここで、ソフトウェア会社が女性を差別していると仮定しますが、ソフトウェア開発業界では、説明していない別の形の性差別があります。資格、学位、在職期間などの客観的なものを管理する場合、平均的な女性は平均的な男性よりも40%高い収入を得ます。世界には雇用差別の原因が3つあります。

1つ目は、管理者または所有者が、いくつかの機能に基づいて誰かを雇うことを望まないということです。2つ目は、同僚がその機能を備えた人々と一緒に働きたくないということです。3つ目は、顧客は機能を持っている人を望んでいないということです。成果物が異なるため、賃金差別は顧客によって引き起こされているようであり、顧客の観点からもより良い。これと同じ機能により、男性の歯科衛生士は女性よりも給料が低くなります。また、世界のサッカーの賃金で「ここに生まれる」という偏見も見られます。

このための最良のコントロールは、データと関係する社会的勢力を理解することです。自社のデータを使用する企業は、自社を複製する傾向があります。それは非常に良いことかもしれませんが、それは彼らが職場での力に対して盲目になる可能性もあります。2番目のコントロールは、目的関数を理解することです。利益は良い機能かもしれませんが、悪い機能かもしれません。客観的な損失関数の選択には価値がある。次に、最後に、データを人口統計に対してテストして、不幸な差別が発生しているかどうかを判断するという問題があります。

最後に、これはAIのようなより大きな問題であり、適切な解釈統計を取得できないため、ユールのパラドックスを制御する必要があります。典型的な歴史的な例は、男性の44%がUCバークレーに受け入れられたが、1973年には女性の35%しか入院しなかったという発見です。これは大きな違いであり、統計的に有意でした。それも誤解を招くものでした。

これは明らかにスキャンダルであり、大学は問題の専攻がどれであるかを調べることにしました。まあ、あなたがメジャーを支配したとき、女性を認めることを支持することに統計的に有意なバイアスがあったことが判明しました。85の専攻のうち、6が女性に、4が男性に偏っており、残りは有意ではなかった。違いは、女性が不釣り合いに最も競争力のある専攻に応募していたため、どちらの性別もほとんど入っていなかったことです。男性は競争力のない専攻に応募する可能性が高かったのです。

ユールのパラドックスを追加すると、差別化のためのさらに深い層が作成されます。性別テストの代わりに、職種ごとの性別テストがあったとします。全社的なジェンダーニュートラルテストに合格する可能性がありますが、タスクレベルでは失敗します。V&Vには女性だけが採用され、システム管理には男性だけが採用されたと想像してください。あなたはジェンダーに中立に見えるでしょうし、そうではありません。

これに対する潜在的な解決策の1つは、「良さ」の異なる客観的基準を使用する競争力のあるAIを実行することです。目標は、ネットを狭めるのではなく広げることです。これは、管理文献の別の問題を回避するのにも役立ちます。男性の3%は社会主義者ですが、企業のはしごをさらに上ると、その数は大幅に増加します。ソシオパスをフィルタリングする必要はありません。

最後に、特定のタイプのポジションにAIを使用することを検討したくない場合があります。私は今、就職活動をしています。また、私が除外されていることも確信しており、その回避方法もわかりません。私は非常に破壊的な新技術に座っています。問題は、私の仕事が魔法の言葉と一致しないことです。代わりに、私は次の魔法の言葉のセットを持っています。現在、私は適切な会社に幸運の価値がありますが、私が申請した1つのケースでは、1分もかからずに自動的に下落しました。連邦機関のCIOを務めた友人がいます。彼は、採用マネージャーが自分の応募が完了するのを待っている仕事に応募しました。フィルターがそれをブロックしたので、それは決して来ませんでした。

これがAIの2番目の問題です。Amazonが採用しているオンラインの履歴書を活用できれば、履歴書に魔法の言葉をかけることができます。実際、私は現在、履歴書を人間以外のフィルターに合わせるために取り組んでいます。また、採用担当者からのメールから、履歴書の一部が拡大されており、他の部分は無視されていることもわかります。まるでプロローグのようなソフトウェアが採用と採用のプロセスを引き継いでいるかのようです。論理的な制約は満たされましたか?はい!これは最適な候補または候補のセットです。それらは最適ですか?

あなたの質問に対する既成の答えはありません、周りにエンジニアする問題だけがあります。


(+1)確実な観察。私は特に、結果の解釈バイアスに関する均衡が好きで、オブジェクト指向であるソーシャルエンジニアリングの目標、つまり具体的なメリットを定義する必要があることを付け加えます。たとえば、男性の看護師が男性に尿道カテーテルを挿入できるようにしても、看護師の50%が男性である必要はありません。
Carl

@デイブ。あなたの洞察をありがとう。「資格、学位、在職期間などの客観的なものを管理する場合、平均的な女性は平均的な男性よりも40%多く稼いでいます」のソースを提供できますか?そして「あなたは社会人のためにフィルタリングしたくない」とはどういう意味ですか??
lcrmorin

@Lcrmorinには、社会人が昇進を求める傾向があります。データを使用しているために既存の階層を複製している場合、社会性をフィルタリングする行動を選択していることに気付くでしょう。ソフトウェアは中立的であるという信念がありますが、既存のコマンドチェーンの多くは中立的ではありません。男性のフィルタリングは、実際には男性のフィルタリングではない場合がありますが、代わりに、社会性を偽装する男性の行動です。
Dave Harris、

@Lcrmorin約700のジャーナル記事を含め、私のオフィスは現在移動中で文字通り箱に入っています。当時、ソフトウェアエンジニアを研究していたので、この記事に心を打たれました。しかし、それは12年前のことです。フィールド調査を実施し、将来のエンジニアのトレーニングを行った結果、女性は男性が支配するグループで生き残るために男性の行動を拾わなければならないが、男性は女性がもたらす行動を拾う必要はないと考えています。私の推測では、要件の導出プロセスを通じて違いが入ります。
Dave Harris、

私は主に40%の数値に懐疑的でした。これは、私を含む人々が今日経験しているように見えるものの多くとどこにも近くないようです。
lcrmorin

5

この種のモデルを構築するには、まず差別とプロセスの結果のいくつかの基本的な統計的側面を理解することが重要です。これには、特性に基づいてオブジェクトを評価する統計プロセスの理解が必要です。特に、意思決定のための特性の使用(つまり、差別)と、その特性に関するプロセス結果の評価との関係を理解する必要があります。まず、次のことに注意してください。

  • (適切な意味での)識別は、結果がその変数と相関しているときだけでなく、変数が決定プロセスで使用されたときに発生します。正式には、プロセスの決定関数(つまり、この場合の評価)が変数の関数であるかどうかを変数に関して判別します。

  • 特定の変数に関する結果の格差は、その変数に差別がない場合でもしばしば発生します。これは、決定関数の他の特性が除外された変数と相関している場合に発生します。除外された変数が人口統計学的変数(例、性別、人種、年齢など)である場合、他の特性との相関は至る所にあるため、人口統計グループ間での結果の差異が予想されます。

  • 差別の一形態である肯定的行動を通じて、人口統計グループ全体の結果の格差を縮小しようとすることは可能です。変数に関してプロセス結果に格差がある場合、「過小評価」されているグループを支持する方法で変数を決定変数として使用することにより(つまり、その変数を区別することにより)、格差を狭めることができます。 (すなわち、決定プロセスにおいて肯定的な結果の割合が低いグループ)。

  • 両方の方法を持つことはできません。特定の特性に関する差別を回避するか、その特性に関するプロセスの結果を均等化する必要があります。特定の特性に関して結果の格差を「修正」することが目標である場合は、自分が何をしているのかを気にしないでください--- 肯定的な目的で差別を行っています

統計的意思決定プロセスのこれらの基本的な側面を理解したら、この場合の実際の目標を明確にすることができます。特に、グループ間で結果に差異が生じる可能性が高い非差別的なプロセスが必要かどうか、または同等のプロセス結果(またはこれに近いもの)を生み出すように設計された差別的なプロセスが必要かどうかを決定する必要があります。倫理的には、この問題は差別の禁止と積極的行動の議論を真似ています。


新しい個人の募集に役立つ5つ星のランキングなど、個人データからの出力を予測する統計モデルを構築するとします。倫理的な制約として、性差別も避けたいとしましょう。性別を除いて2つの厳密に等しいプロファイルが与えられた場合、モデルの出力は同じになるはずです。

モデルから与えられた評価が、除外したい変数(性別など)の影響を受けないようにするのは簡単です。これを行うには、この変数をモデルの予測子として削除して、評価の決定に使用されないようにするだけです。これにより、その変数を除いて、厳密に等しい2つのプロファイルが同じように扱われます。しかし、それはありません必ずしもモデルは除外変数と相関する別の変数に基づいて識別しないことを確認し、そしてそれは一般男女間で等しくなる結果をもたらさないであろう。これは、性別がモデルの予測変数として使用される可能性のある他の多くの特性と相関しているため、通常、差別がなくても結果が等しくないことが予想されるためです。

この問題に関しては、固有の性別の特徴である特徴(たとえば、立ち上がっている小便器)と、単に性別と相関しているだけの特徴(たとえば、工学の学位を持っている)を区別することは有用です。性別による差別を避けたい場合は、通常、予測因子としての性別を削除し、固有の性別特性と見なすその他の特性も削除する必要があります。たとえば、求職者が立っておしっこするか座っておしっこをするかを指定した場合、それは性別と厳密に同等ではない特性ですが、1つのオプションで性別を効果的に決定できるため、おそらくその特性を削除します。モデルの予測子として。

  1. 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか?

正確に何を修正しますか?「効果を修正する」と言った場合、性別と相関する予測子によって引き起こされる結果の格差を「修正する」ことを検討していることを想定しています。それが事実であり、性別を使用して結果の格差を修正しようとしている場合は、肯定的な行動に効果的に取り組んでいます。つまり、結果をより近づけるために、性別を積極的に差別するようにモデルをプログラミングしています。 。これを実行するかどうかは、モデルにおける倫理的目標に依存します(差別を回避するか、同等の結果を得るか)。

  1. 性別による差別がないことを確認するにはどうすればよいですか?

結果の単なる格差ではなく、実際の差別について話している場合、これは制約やチェックが簡単です。必要なのは、性別(および固有の性別特性)を予測子として使用しないようにモデルを定式化することだけです。コンピュータは、モデルに入力しない特性に基づいて決定を下すことができないため、これを制御できれば、差別がないことを確認するのは非常に簡単です。

入力なしで関連する特性自体を理解しようとする機械学習モデルを使用すると、状況は少し難しくなります。この場合でも、削除するように指定した予測子(性別など)を除外するようにモデルをプログラムすることが可能です。

  1. 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?

「統計的に判別可能な」データを参照するとき、私は性別と相関する特性を単に意味していると思います。これらの他の特性が必要ない場合は、モデルの予測子として削除するだけです。ただし、多くの重要な特性が性別と相関している可能性が高いことを覚えておいてください。その特性を持つ男性の比率がその特性を持つ女性の比率と異なる場合、どのようなバイナリ特性も性別と相関します。(もちろん、それらの比率が近い場合、それらの差が「統計的に有意」ではないことに気付く場合があります。)より一般的な変数の場合、非ゼロ相関の条件も非常に弱くなります。したがって、


相関変数を削除する別の方法は、男性と女性の別々のモデルをトレーニングすることです。次に問題は、これらの個別のモデルをどのように使用するかです。
kjetil b halvorsen

退屈。それに対して、たとえば「性別バイアスはどのように問題があるのか​​」などの前提条件にはメリットがあります。誰もが知っているわけではなく、事後的に結果を確認する代わりはありません。
Carl

1
思慮深い人のための+1。「性別(および固有の性別特性)を予測子として使用しないようにモデルを定式化するだけです。」これは簡単に書くことができますが、社会がメディアに属しているときに雇用のような社会的意思決定のアルゴリズムを作成し始めることは、収入履歴学歴以前の地位などが因果的にジェンダーの下流であることを意味します。
Alexis

4

これはせいぜい部分的な答えになります(またはまったく答えられません)。

最初に注意する点は、@ dsaxtonに完全に同意することです。すべてのモデルは(少なくともいくつかの差別の定義では)「差別的」です。問題は、モデルが要約と平均に作用し、平均に基づいて物事を割り当てることです。単一の個人は固有であり、完全に予測から外れている可能性があります。

例:1つの変数年齢に基づいて、前述の5つ星のランキングを予測する単純なモデルを考えます。同じ年齢(30歳など)のすべての人が同じ出力を生成します。しかし、それは一般化です。30歳のすべての人が同じになるわけではありません。そして、モデルが異なる年齢に対して異なるランクを生成する場合-それはすでに彼らの年齢のために人々を識別しています。たとえば、50歳の場合は3、40歳の場合は4になります。実際には、40歳よりも優れている50歳の人がたくさんいます。そして、彼らは差別されます。


  1. 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか?

モデルが他の点では等しい男性と女性に対して同じ結果を返すようにする場合は、モデルに性別を含めないでください。性別に関連するデータはおそらく含まれるべきです。そのような共変量を除外することで、少なくとも2種類のエラーが発生する可能性があります。2)それらの性別相関共変量の一部が評価に関連していて、同時に性別と相関している場合-それらを除外すると、モデルのパフォーマンスが大幅に低下する可能性があります。

  1. 性別による差別がないことを確認するにはどうすればよいですか?

まったく同じデータでモデルを2回実行します。1回は「男性」を使用し、もう1回は「女性」を使用します。これがテキスト文書からのものである場合、おそらくいくつかの単語で置き換えることができます。

  1. 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?

あなたが何をしたいかに依存します。男女間の平等を強制する1つの残忍な方法は、モデルを男性の応募者と女性の応募者に別々に実行することです。そして、あるグループから50%、別のグループから50%を選択します。

あなたの予測はおそらく影響を受けるでしょう-それは、申請者の最良のセットがちょうど半分の男性と半分の女性を含むことはありそうもないので。しかし、おそらく倫理的に大丈夫でしょうか?-これも倫理に依存します。このタイプの行為は違法であり、性別に基づいて差別されるため、別の方法で倫理的宣言を見ることができました。


個別にトレーニングをしてみませんか?
kjetil b halvorsen

これはさらに別の形の差別を導入しないでしょうか?男性と女性は異なる基準に従って選択されます。
KarolisKoncevičius19年

多分、しかしそれは試してみる価値があるでしょう。それはまた、マシンに簡単な方法を与えるのではなく、男性のためのより良いルールを作るかもしれません。
kjetil b halvorsen

「次に、あるグループから50%、別のグループから50%を選択します。」(数とプロファイルの両方に関して)元の人口に格差がある場合、それは肯定的な差別につながるのではないでしょうか?
lcrmorin

2
@Lcrmorinはい、もちろんそうです。それは、彼らが何を意味するかだ「それはまた、差別、性別ではなく、別の方法でベースのでしょう。
Effが

4

アマゾンの物語が示していることは、バイアスを回避することは非常に難しいということです。アマゾンがこの問題のためにばか者を雇ったのか、彼らがスキルを欠いていたのか、十分なデータを持っていなかったのか、より良いモデルをトレーニングするのに十分なAWSクレジットを持っていなかったのか疑問です。問題は、複雑な機械学習アルゴリズムがデータのパターンの学習に非常に優れていることでした。性別バイアスはまさにそのようなパターンです。採用担当者が(意識的にかどうかにかかわらず)男性候補者を支持したため、データに偏りがありました。Amazonは求職者を差別する会社であると言っているわけではありません。彼らには何千もの差別禁止ポリシーがあり、かなり優秀な採用担当者も雇っていると思います。この種の偏見と偏見の問題は、それをどのように頑張ろうとしても存在することです。人々が偏見を持たないように宣言するかもしれないことを示す心理学実験がたくさんあります(例えば人種差別主義者)、しかし、それを実現することさえせずに、偏った行動をします。しかし、質問に答えると、バイアスのないアルゴリズムを使用するには、この種のバイアスのないデータから始める必要があります。機械学習アルゴリズムは、データに表示されるパターンを認識して繰り返すことを学習するため、データに偏った決定が記録されている場合、アルゴリズムはそれらの偏りを学習および増幅する可能性があります。

次に、データを管理します。アルゴリズムが偏った決定をすることを学習することを禁止したい場合、関心のあるグループ(ここでは性別)を区別する場合に役立つであろうすべての情報を削除する必要があります。これは、性別に関する情報だけでなく、性別の特定につながる可能性のあるすべての情報も削除することを意味します。これは多くのことになる可能性があります。名前や写真のような明らかなものだけでなく、間接的なものもあります。たとえば、レジ​​ュメの母性休暇だけでなく、教育(もし誰かが女子校に通ったらどうなるでしょうか)、または職歴(会社の採用担当者に偏りがないと言います) 、しかし、以前に他のすべての採用担当者が偏っていた場合はどうなりますか?そのため、作業履歴には、これらの偏った決定がすべて反映されますか?)、など。

質問2.と3.については、簡単な答えはなく、詳細に答える能力もありません。社会における偏見と偏見の両方について、そしてアルゴリズムの偏見についての多くの文献があります。これは常に複雑であり、残念ながら、このための簡単なレシピはありません。Googleなどの企業は、アルゴリズムのこの種の偏見を特定して防止する役割を持つ専門家を雇っています。


1
モデルが(具体性のために)性別を区別するのに役立つすべてのものを削除する代わりに、モデルを性別でトレーニングし、予測(または何でも)を行うときに、予測を2回、各性別で1回実行し、結果を平均化することができます。
jbowman

@jbowman結果としてほとんど解釈上の結果が得られず、組み込みのバイアスが長期にわたって永続します。
Alexis

アマゾンの訴訟は、決定的なバイアスを示すものではありません。それは単にステレオタイプの正確性として知られている現象である可能性があります。時々、特性は実際に人口統計変数と相関します。例を示します。Xは若くて中産階級です。彼らが暴力犯罪を犯す可能性はどのくらいありますか?ここで、別の情報を提供します。彼らの性別です。これは可能性を変えますか?もちろん。そのバイアスですか?もちろん違います。それは、ステレオタイプの精度
Eff

1
@Effそしてこれが差別がどのように起こるかです...女性は平均してより少ない収入を得るので、彼らにもっと支払わないようにしましょう!差別的なアルゴリズムがないことの全体的なポイントは、たとえ平均的には機能しているように見えても、決定を行うためにそのような情報を使用すべきではないということです。さらに、社会的偏見が原因で頻繁に機能する場合(たとえば、男性にもっと支払う傾向がある場合、アフリカ系アメリカ人は白人のアメリカ人などと比較して、まったく同じ犯罪で刑務所に行く可能性が高くなります)。ステレオタイプであり、ステレオタイプ化されたグループの性質のためではありません。
Tim

1
@ティム・ノープ。あなたの言っていることに真実があるかもしれませんが、概してそれは真実ではありません。リー・ジュシム著「社会的知覚と社会的現実:なぜ正確さが偏見と自己実現的予言を支配するのか」を読むことをお勧めします。この主要な本では、著者は基本的に、ステレオタイプ、バイアス、自己実現的予言などに関する科学文献の本文全体をレビューします。彼は、あなたが説明していることが、起こっていることの少数派であることを圧倒的に示している証拠を示しています。
Eff

1
  1. 性別(またはそれに関連するデータ)を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか?

この質問には、次のように要約されるいくつかの意味があります。ソーシャルエンジニアになりたいですか。社会が病気で治療が必要だと私が決めたので、現状を変えることが役割である活動家?これに対する明白な答えは、そのような変更が有益か有害かによって異なります。たとえば、「看護スタッフの男女共同参画から何が得られるか」に対する答え。男性に尿道カテーテルを挿入するために利用できる男性看護師が少なくとも1人いる場合、看護師の50%が男性である必要はないかもしれません。したがって、ソーシャルエンジニアリングアプローチは、さまざまな文化、コンテキスト、既知の性別バイアスの問題を調べ、そのバイアスの根本的な原因の変化から得られる機能的利点を推測します。これは、意思決定プロセスの重要なステップです。さて、質問1への答えは非常に大きなものです。つまり、社会が修正を必要とすると、女性の応募者に星またはその一部(以下を参照)を追加するだけです。ただし、これは本質的に差別的であるアファーマティブアクションであるため、希望するものには十分注意してください。AIの結果は、新しい職務基準として確立されると、新しい採用基準を反映して変化します。

  1. 性別による差別がないことを確認するにはどうすればよいですか?

十分に単純で、評価が割り当てられた後、事後分析を行って、男性と女性の評価の分布を確認し、それらを比較します。

  1. 統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか?

これは事後、つまり事後的にやむを得ず行われます。先見性も必要ですが、最も必要な先見性のタイプは、ソーシャルエンジニアの仮定が何であるかを批判的に調査するための協調的な試みです。つまり、(議論のために、以下を参照)すべての性別バイアスを排除することが社会学的に正当であると仮定すると、男性と同じ経験分布に従うように女性の評価を調整するだけです。教育業界では、これは曲線上のグレーディングと呼ばれます。さらに、性別による偏見を完全に排除することは望ましくない場合があるため(そうすることはあまりにも破壊的である可能性があります)、偏りを部分的に排除することができます(たとえば、各ネイティブ女性のペアごとの加重平均)評価およびその完全に修正された評価。最も危険性が低いか、または最も有益であると考えられた(またはテストされた)重みを割り当てます。

一部の分野では女性候補者が比較的不足しているため、政策だけを採用してもジェンダー格差を適切に変えることはできません。たとえば、ポーランドでは、IT学生の14.3%が 2018年に女性、オーストラリアでは17%でした。採用されると、技術集約型産業での女性の定着率には問題ありました(技術集約型産業での職務に従事する女性は、他の産業に高い割合で出向いており、男性の31%と比較して、女性の53%)。ポリシーを単独で採用するよりも重要です。最初に、特定の割合の女性が職場にいることの具体的なメリットを特定する必要があります。これについて、たとえば2016年にヒントがいくつかあります。コーポレートボードの女性(16%)は、男性のカウンターパート(9%)のほぼ2倍の確率で、518のフォーブスグローバル2000企業で専門的なテクノロジーの経験を持っています。したがって、テクノロジーに精通していることは、男性の純資産よりも女性に多く貢献しているようです。この議論から明らかなように、性別を特定する前に、採用方針が重要ではあるものの、一部であり、おそらく最も重要ではない特定の方針の、よりグローバルで具体的なメリットを特定することに向けて、相当な努力をすべきです。出発点。後者は、離職率が道徳に悪影響を及ぼし、採用における性別バイアスの根本的な原因である可能性があるため、採用の保持である可能性があります。

私の管理経験では、仕事量の小さな変更(例:10〜20%)でも、最終的に待機リストを排除するのに非常に効果的であることがわかりました。これにより、小さな変更よりもわずかに早く待機リストが短縮されますが、その後、スタッフがドアに向かって作業が進むことを期待して待機しているため、混乱が生じます。つまり、ソーシャルエンジニアリングを行うことを決定した場合、完全な修正を試みることは有害である可能性があります。そのようには機能しません。ヨットで急にコースを修正してそれを試してみてください。そうすれば、泳ぎの練習をしてしまうかもしれません。性別による偏見(処方箋が当てはまる場合)を治療するための同等の方法は、女性だけを雇うことです。それは問題を解決します(そして他のものを作成します)。そう、

要約すると、効果的なソーシャルエンジニアリングには複雑な状況への全体的なアプローチが必要であり、問​​題がある可能性があることを特定するだけでは問題があることはわかりません。問題の原因もわかりません。修正方法もわかりません。それは私たちが私たちの思考の上限を置く必要があることを私たちに伝えているすべてです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.