シンプソンのパラドックスを理解する:性別と身長で収入が減少するアンドリュー・ゲルマンの例


22

Andrew Gelmanは最近のブログ投稿の1つで次のように述べています。

  1. 私はシンプソンのパラドックスに反事実または潜在的な結果が必要だとは思わない。シンプソンのパラドックスを、操作できない変数で設定したり、操作に直接興味がない変数で設定したりできるためです。

  2. シンプソンのパラドックスは、より多くの予測変数を追加すると回帰係数が変化するというより一般的な問題の一部であり、符号の反転は実際には必要ありません。

以下は、両方のポイントを説明する私の指導で使用する例です。

性別と身長から収入を予測する回帰を実行できます。性別の係数は10,000 ドル(つまり、同じ高さの男性と女性を比較すると、平均して男性は10,000 ドル多くなります)、高さの係数は500 ドル(つまり、2人の男性または2人の女性を比較)身長が異なる場合、平均して背の高い人は身長1インチあたり500 ドル多くなります)。

これらのcoefをどのように解釈できますか?私は確かにそれは高さに退行に何らかの形で「間違っている」と思われる、(それは高さの異なる同性の2人を比較すると想像するのは簡単です)高のCOEFが解釈しやすいと感じずに生の限り、セックスのための制御します背の低い人と背の高い人の違いは、男性と女性の違いであることによって「説明」できます。しかし、上記のモデルの性別を解釈するのは非常に難しいようです。たとえば、両方の身長が66インチの男性と女性を比較するのはなぜでしょうか。これは、背の低い男性と背の高い女性の比較になります。この推論はすべて漠然と因果関係にあるように見えますが、潜在的な結果を使用してそれを考えることは理にかなっていないと思います。

私はそれについて熟考し(そして投稿にコメントしさえしました)、ここでより明確に理解されるように懇願する何かがあると思います。

性別の解釈に関する部分までは大丈夫です。しかし、私は背の低い男性と背の高い女性を比較することの背後にある問題が何であるかわかりません。私のポイントは次のとおりです。実際、それはさらに意味があります(男性は平均して背が高いと仮定すると)。収入の違いは高さの違いによって何らかの部分で説明されるというまったく同じ理由で、「背の低い男性」と「背の低い女性」を比較することはできません。同じことは背の高い男性と背の高い女性にも当てはまり、さらに背の低い女性と背の高い男性にも言えます(いわば、それはさらに問題外です)。したがって、基本的に身長の影響は、背の低い男性と背の高い女性を比較する場合にのみ排除されます(これは、性別の係数の解釈に役立ちます)。人気のマッチングモデルの背後にある同様の基礎概念に鐘を鳴らしていませんか?

シンプソンのパラドックスの背後にある考え方は、人口効果がサブグループごとの効果とは異なる可能性があるということです。これはある意味で彼のポイント2と、高さを単独で制御すべきではないことを認めているという事実に関連しています(変数バイアスの省略)。しかし、私はこれを性別の係数に関する論争と関連付けることはできませんでした。

それをもっとはっきりと表現できるかもしれませんか?または私の理解についてコメントしますか?


相互検証は、母集団のランダムなサブセットを調べて、最小の過剰適合と最良の一般化を試みます。
EngrStudent-モニカの復活

1
私はあなたの懸念を正しく理解していれば、主のパラドックスを見ることからも恩恵を受けると思います。@article {lord67、author = {Lord、FM}、title = {グループ比較の解釈におけるパラドックス}、journal = {Psychological Bulletin}、year = {1967}、volume = {68}、pages = {304- -305}、キーワード= {スコアの変更}} @article {lord69、author = {Lord、FM}、title = {既存のグループを比較する際の統計的調整}、journal = {Psychological Bulletin}、year = {1969}、volume = {72}、ページ= {336--337}、キーワード= {スコアの変更}}
mdewey

1
ジューダパールは最近、シンプソンのパラドックスについて別の投稿をしました。私は彼がゲルマンのプレゼンテーションに同意しないと確信しています。かつて、2番目のポイントは「パラドックス」ではありません。条件付けの結果としての推定値の反転は、数学的な事実です。潜在的に逆説的になるのは、両方の推定値の因果解釈を行うときです。第二に、なぜこの操作可能な操作に対する制限のみが必要なのですか?
NRH

回答:


9

私はあなたの質問を完全に確信しているわけではありませんが、彼の主張と例のモデルにおけるあなたの混乱について発言することができます。

アンドリューは、科学的関心が身長調整された性別収入関係にあるのか、性別調整された身長収入関連性にあるのかは明確ではありません。因果モデルの枠組みでは、性別身長を引き起こしますが、身長性別を引き起こしません。したがって、セックスの影響が必要な場合、身長を調整するとメディエーターバイアスが発生します(金持ちは背が高いため、コライダーバイアスも発生する可能性があります!)。を解釈する応用研究を見たとき、私はそれが混乱し面白いと思うモデルに含まれる「共変量」(コンファウンダーおよび精度変数)。それらはナンセンスですが、単に必要な比較を行うために適切な層別化を提供します。性別に基づく収入の違いの推測に興味がある場合、身長を調整するのは間違ったことです。

シンプソンのパラドックスを説明するのに反事実は必要ないことに同意します。それらは単にデータに固有の特性になります。粗野なRRと調整されたRRの両方は、ある意味で因果関係なく正しいと思います。もちろん、目的が因果分析であり、調整過剰が非折りたたみ性(ORを膨らませる)と不十分なサンプルサイズの問題を明らかにする場合、それはより問題です。

読者へのリマインダーとして:シンプソンのパラドックスは、交絡変数を制御した後、関連付けが方向反転するインスタンスを指す非常に特殊な現象です。Berkeley Admissionsのデータが動機付けの例でした。そこで、粗野なRRは、女性がバークレーに受け入れられる可能性が低いことを示しました。ただし、部門ごとに階層化すると、RRは、すべての部門で女性が受け入れられる可能性が高いことを示しました。彼らは、多くの人々を拒否した困難な部門に適用される可能性が高かっただけです。

今、因果推論理論では、私たちが適用し部門 性別引き起こすと考えると困惑するでしょう。性別は本質的な権利ですか?はい、そうです。Miettenenは、このような問題に対する「研究ベース」アプローチを主張しています。人口は誰ですか?すべての資格がある学生ではなく、特にバークレーに適用される学生です。より競争力のある部門は、そうでなければ応募しなかったであろう女性をバークレーに応募するように引き付けました。拡大するには、非常に知的な女性は、最高の、例えばエンジニアリングプログラムに参加したいと考えています。バークレーが素晴らしいエンジニアリングプログラムを持っていなかったなら、彼女はとにかくバークレーに応募しなかったでしょう、彼女はMITまたはCalPolyに応募していました。そのため、「申請学生」の人口である学科は性別を引き起こし、交絡因子です。(注意:私は第一世代の大学生ですので、どのプログラムが何のために有名かについてはあまり知りません)。

それでは、このデータをどのようにまとめるのでしょうか?バークレーは、女性よりも応募した男性を認める可能性が高かったのは事実です。そして、バークレーの部門が男性を認めるよりも女性を認める可能性が高いことは事実です。粗RRおよび成層RRは、たとえ非因果的であっても賢明な手段です。これは、統計学者としての私たちの言葉遣いで正確であることがいかに重要であるかを強調しています(謙虚な著者は、自分が遠隔で正確であると思い込まない)。

交絡は、非折りたたみ性とは異なる現象であり、変数バイアスを省略した別の形式ですが、推定値に対してより穏やかな効果をもたらすことが知られています。ロジスティック回帰とは異なり、非コラプシビリティは線形回帰の偏りを引き起こさないため、ゲルマンの例での連続性の考慮はより徹底的に説明されているはずです。

アンドリューの性別/身長調整収入モデルにおける性別係数の解釈は、モデルの仮定の性質、つまり直線性の仮定を明らかにしています。実際、線形モデルでは、特定の女性について予測できるため、このような男性と女性の比較が可能になります。同じような身長の男性が、たとえ彼が観察されなかったとしても、獲得したかもしれないもの。女性の傾向の傾きが男性の傾向と異なるように、効果の変更を許可する場合も同様です。一方、同じ高さの男性と女性を想像するのはそれほど狂っているとは思わない。66インチは実際に背の高い女性と背の低い男性だろう。全体的な外挿ではなく、私にとっては穏やかな予測です。さらに、モデルの仮定は明確に述べることができるので、性別の層別所得と身長の関連には、全体にわたって借用または平均化された情報が含まれていることを読者が理解するのに役立ちます男性と女性のサンプル。そのような関連性が推論の対象である場合、熱心な統計学者は明らかに効果の変更の可能性を考慮します。


2
素晴らしい議論。統計学者として、人々が研究の結果について話すとき、それは私をいらいらさせますが、彼らが限界効果または条件効果について話しているかどうかはわかりません。
クリフAB

1

「例えば、両方の身長が66インチの男性と女性を比較するのはなぜですか?それは、背の低い男性と背の高い女性の比較になります

モデルは、収入が性別と身長に依存すると想定しています。しかし、身長がより高い収入を生み出す方法は、男性と女性で同じではないかもしれません。女性は、男性がまだ背が低いと考えられる高さで、「十分」背が高いとみなされる場合があります。

次の方法でモデルを簡素化すると便利な場合があります。

大規模な衣料品小売店で店員として採用される確率を回帰したいと仮定し、次の識別戦略を検討します。

あなたは、雇用主が特定の最低身長を満たす労働者を雇う可能性が高いことを観察します。「最低」は性別に関連しています。

高さをcmで測定する代わりに、男性と女性がそれぞれ「高さ」の高さを定義する2つのしきい値が存在すると仮定します。男性は> = 180 cm、女性は> = 170 cmです。

しきい値が現実に存在すると仮定すると(つまり、雇用主は女性と身長169cmまたは171cmの間で実際に顕著な違いを生む)、それらが正しいものであると仮定すると、背の高い/短い男性と女性を定義するダミーを構築できます。身長の異なる男性と女性は、まだダミーの同じカテゴリに分類される可能性があり、同時に、その測定値はその特定の労働市場の実際のダイナミクスと一致しています。


-1

(よりわかりやすい言葉で)収入がp%高いので男性は女性よりもチャンスが多いという典型的な性別の戦いは逆説的に偏っていると言いますか?

たぶんそれがポイントです。私たちは物事がどのように見えるかを見る傾向があり、根底にある意味を分析しません。

シンプソンのパラドックスを上回るためには、「男性と比較して、女性が同じ量の公平な仕事をすることでどれだけのお金が稼げるか」という質問に答えなければなりません。誰かが妊娠していると言うことができますが、本当のことですが、重要な問題は、「女性であるという事実のための女性は機会が少ない」と深いことです条件付き統計を用いた分析は、本質的に平等な機会が存在する傾向があり、それらが性に関係しない他の要因であり、統計が性問題に関連する差別であるように見える要因です。


このような分析は必ずしも因果関係や説明ではなく、既存の現象を説明するものである可能性があることを理解することが役立つ場合があります。
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.