シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか?


10

以下は、シンプソンのパラドックスの存在の「証明」として提供されている多くの視覚化についての質問であり、用語についての質問かもしれません。

シンプソンのパラドックスは説明すると、(理由の数値例を与えるためにかなり単純な現象であり、なぜこの現象が発生することができますが深いと面白いですが)。パラドックスは、2x2x2の分割表(Agresti、Categorical Data Analysis)が存在し、マージナルアソシエーションが各条件付きアソシエーションとは異なる方向にあることです。

つまり、2つの部分母集団の比率の比較はどちらも一方向に進むことができますが、組み合わせた母集団の比較は他の方向に進みます。シンボル:

存在B C D E F GはHよう +のBa,b,c,d,e,f,g,h

a+bc+d>e+fg+h

しかし

ac<eg

bd<fh

これは、次の視覚化で正確に表現されています(Wikipediaから):

シンプソンのパラドックス

分数は単に対応するベクトルの勾配であり、短いBベクトルは対応するLベクトルよりも大きい勾配を持っていますが、結合されたBベクトルは結合されたLベクトルよりも小さい勾配を持っていることが例でわかります。

多くの形式で非常に一般的な視覚化があり、特にSimpson'sに関するWikipediaのリファレンスの前に1つあります。

サブポピュレーションでは逆の傾き

これは交絡の良い例であり、(2つのサブ母集団を分離する)非表示変数が異なるパターンを示す方法です。

ただし、数学的には、そのような画像は、シンプソンのパラドックスとして知られている現象の基礎となっている分割表の表示にまったく対応していません。まず、回帰直線は実数値のポイントセットデータ上にあり、分割表のカウントデータではありません。

また、回帰直線で勾配の任意の関係を持つデータセットを作成することもできますが、分割表では、勾配の違いに制限があります。つまり、母集団の回帰直線は、指定された部分母集団のすべての回帰に直交する可能性があります。しかし、シンプソンズのパラドックスでは、サブグループの比率は、回帰勾配ではありませんが、逆の方向にあったとしても、融合した母集団から遠く離れることはできません(ここでも、ウィキペディアの比率比較画像を参照してください)。

私にとっては、シンプソンのパラドックスの視覚化として後者の画像を見るたびに驚かされるのに十分です。しかし、私はどこでも(私が間違っていると思う)例を目にしているので、知りたいと思っています。

  • オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか?
  • 確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算で、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか?

補遺:これは、2xmxn(または連続で2 x m)テーブルへの一般化の例です。 距離に関して作成されたバスケットの割合。非表示の変数はショットのタイプです

オーバーショットタイプを組み合わせた場合、防御側が近づくと、プレーヤーはより多くのショットを行うように見えます。ショットの種類(実際にはバスケットからの距離)でグループ化されると、より直観的に予想される状況が発生し、より多くのショットが行われ、ディフェンダーが遠ざかるようになります。

この画像は、シンプソンズをより継続的な状況(防御側の距離)に一般化したものだと私が考えるものです。しかし、回帰線の例がシンプソンの例である方法はまだわかりません。


5
Simpson's Paradoxは、カテゴリターゲットデータにのみ適用されるわけではありません。最終的なグラフのように、それに影響を与えるカテゴリ要因を持つ継続的なターゲットデータは、パラドックスの影響を受ける可能性があります。重要なのは、関心のある変数がカテゴリカルであるかどうか、または関心のある変数に影響を与える他の要素のいずれかまたはすべてがカテゴリであるかどうかではなく、「カテゴリ係数」です。
jbowman 2017年

@jbowman OK、SPはカテゴリデータを超えて連続に一般化できる可能性があることがわかります(その一般化を見たことはありません。SPには常に分割表が表示されているようです)。2番目のグラフがどのように対応しているかはわかりません。つまり、「隠された変数が方向を変える可能性がある」という明白だが曖昧なメタファーを見ているのですが、一般化が数学的に/正確にどのように機能するかはわかりません。
ミッチ

1
「実際の」データが2つの色付きの線をたどる原因となる非表示の分類的要因がありますが、それについての知識がないと、データは点線をたどっているように見えます。カテゴリではなく、ターゲットおよびx軸変数として年齢別の運転事故を検討してください。彼らは年齢とともに下がるように見えますよね?ここで、「飲酒運転」の「隠し要素」を追加します。青い線は「飲酒運転」、赤い線は「飲酒運転」です。若者と関連しているその隠れた要因を考えると、事故は年齢とともに増加します!(最も現実的な例ではありませんが、認めざるを得ませんが、重要なのはこのアイデアです...)
jbowman '29

@jbowmanこれは、SPではなく交絡エラーの説明のように聞こえます。多分あなたはSPと交絡が同じであると言っているでしょう。しかし、それは答えの方向に聞こえます。多分それをもう少し形式化し、SPとの接続をより明示的にすることができます(回帰線が、分割表のケースでの比率比較のようなものであることを数学的に説明します)。
ミッチ

1
xp

回答:


8

パラドックスは、2x2x2の分割表(Agresti、カテゴリーデータ分析)が存在することであり、辺縁の関連付けは各条件付きの関連付けとは異なる方向にあります。回帰直線の視覚化を正当化する実際の値?

主な問題は、パラドックスをパラドックス自体として示すための1つの簡単な方法を同等とみなしていることです。分割表の簡単な例はパラドックスそのものではありません。シンプソンのパラドックスは、限界と条件付きの関連付けを比較するときの因果的直観の矛盾に関するものであり、ほとんどの場合、符号の反転(またはシンプソン自身が提供した元の例のように、独立などの極端な減衰であり、符号の反転はありません)。両方の見積もりを因果的に解釈すると逆説が生じ、異なる結論につながる可能性があります---治療は患者を助けたり傷つけたりしますか?そして、どの見積もりを使用する必要がありますか?

E(Y|X)X>0E(Y|X,C=c)X<0,c

確かにシンプソンズは交絡エラーの特定のインスタンスです。

これは不正解です。シンプソンのパラドックスは交絡エラーの特定のインスタンスではありません-それだけなら、パラドックスはまったくありません。結局のところ、何らかの関係が混乱していることが確かな場合は、分割表や回帰表または回帰係数の符号の反転や減衰に驚かされることはないでしょう。

したがって、シンプソンのパラドックスは限界と条件付きの関連付けを比較するときの「効果」の逆転(または極端な減衰)を指しますが、これは交絡によるものではない可能性があり、アプリオリは限界または条件付きテーブルが「正しい」かどうかを知ることができません。因果関係の質問に答えるために相談する人。そのためには、問題の原因構造についてさらに知る必要があります。

パールで与えられたこれらの例を考えてみましょう: ここに画像の説明を入力してください

XYZZZZZ

なぜこれが「パラドックス」と見なされたのか、なぜそれが依然として人々を困惑させるのかについてのパールの説明は非常にもっともらしい。たとえば、(a)に示した単純なケースを考えてみましょう。因果関係は単純にそのように反転することはできません。したがって、両方の推定値が因果関係(限界と条件付き)であると誤って想定している場合、そのようなことが起こっていることに驚かされます---人間はほとんどの関連で因果関係を見るように配線されているようです。

それであなたの主な(タイトル)質問に戻ります:

シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか?

ある意味で、これはシンプソンのパラドックスの現在の定義です。しかし、明らかに条件変数は隠されていません。それを観察する必要があります。パラドックスの不可解な部分のほとんどは因果関係の考慮に由来し、この「隠された」変数は必ずしも交絡因子ではありません。

隣接表と回帰

yxz

yx

a+bc+de+fg+h=cov(y,x)var(x)

zz=1

aceg=cov(y,x|z=1)var(x|z=1)

z=0

bdfh=cov(y,x|z=0)var(x|z=0)

したがって、回帰に関して、パラドックスは最初の係数推定に対応します。(cov(y,x)var(x))(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
あなたの見解では、シンプソンのパラドックスは限界関連と条件付き関連の違いの可能性だけでなく、データを解釈するときにどちらが「適切」であるかについての混乱も参照しているようです。そしてパールは、因果構造がこれを決定するために使用すべきものであることを示していますか?
ポール

2
「シンプソンのパラドックスは、限界関連と条件付き関連を比較するときの矛盾する直観についてです。」シンプソンのパラドックスは、原油と層別の結果を比較する際に、特にサインの反転について言及しています。
AdamO

2
@AdamOほとんどの人々はシンプソンのパラドックスの「厳密な」定義として符号反転の極端なケースを使用していますが、シンプソンの元の例には実際には符号反転がありませんでした。
カルロスチネリ

1
まさにその通りです。
カルロスチネリ

2
@AdamOこれが「パラドックス」と見なされた理由と、それがなぜ人々を困惑させるのかについてのパールの説明はもっともらしいと思います。たとえば(a)の単純なケースでは、因果効果は単純にそのように逆転することはできません。したがって、両方のケースについて因果的に考えている場合、そのようなことが起こっているのを見ると驚きます---そして、人間はほとんどの関連で因果関係を見るために配線されているようです。
カルロスシネリ

2

オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか?

はい。Y軸上の応答の対数オッズを視覚化することにより、同様のカテゴリー分析の表現が可能です。シンプソンのパラドックスは、結果の地層指示対象の対数オッズに従って距離で重み付けされた地層固有の傾向に対して「原油」線が走る場合とほとんど同じように見えます。

これは、バークレー入学データの例です

ここに画像の説明を入力してください

ここで性別は男性/女性のコードで、X軸は男性と女性の大まかな入院時の対数オッズです。太い黒い破線は性別の好みを示しています。正の傾きは男性の入院へのバイアスを示唆しています。色は、特定の部門への入学を表します。2つを除くすべてのケースで、部門固有の性別選好線の傾きは負です。これらの結果が相互作用を考慮しないロジスティックモデルで一緒に平均化される場合、全体的な影響は女性の入院を支持する逆転です。彼らは男性よりも頻繁に難しい部門に申請しました。

確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算でも、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか?

簡単に言えば、いいえ。シンプソンのパラドックスは単なる「何」であるのに対し、交絡は「なぜ」である。支配的な議論は、彼らが同意するところに焦点を合わせてきました。交絡は推定値に最小限または無視できる影響を与える可能性があり、シンプソンのパラドックスは劇的ではありますが、非混同者によって引き起こされる可能性もあります。注として、「非表示」または「潜む」変数という用語は不正確です。疫学者の観点から、研究を注意深く制御および設計することで、交絡バイアスの原因となる可能性のある要因を測定または制御できるはずです。問題となるために「非表示」にする必要はありません。

交絡の結果ではなく、ポイントの推定値が大幅に変化し、逆転のポイントになる場合があります。コライダーとメディエーター変更効果であり、おそらくそれらを逆転させます。因果推論では、効果を研究する場合、層別推定が間違っているため、主効果はこれらを調整するのではなく、個別に研究する必要があると警告しています。(それは、医師を見るとあなたが病気になる、または銃が人を殺すため、人々は人を殺さないと推測するのと同じです。)


それで、シンプソンの元の例は「シンプソンのパラドックス」の場合ではないと言うでしょうか?
カルロスシネリ

@CarlosCinelliどんな例を参照しますか?私はシンプソンの1951年の論文にアクセスすることはできませんが、JRSSで公開されており、要約の適用例に言及していないことを考えると、それは純粋に理論的な作品のようです。
AdamO

これは、パラグラフ9と10の数値例であり、2つの異なる因果解釈につながる2つの異なるストーリーを持つ同じ分割表を示しています。その例では、符号の反転はなく、わずかに独立しているだけです。
Carlos Cinelli 2017

2
ここでサインの反転が重要ではない理由を確認するには、治療が男性と女性の両方に非常に強い関連を示し、人口全体でごくわずかな関連しか示さない状況を想像してみてください。因果的に解釈すると、これはほとんどの人にとっても逆説的です。
Carlos Cinelli 2017

@CarlosCinelliそれは交絡の例であり、シンプソンのパラドックス自体ではないが、私は要点を述べないだろうと私は言ったでしょう、私はあなたが良い議論をしたと思います、そしておそらく私は何であったかについて間違った仮定をしていましたシンプソンのパラドックスのとらえどころのない現象。
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.