シンプソンのパラドックスについて、分割表ではなく方程式で説明してください。


14

私はおそらくシンプソンのパラドックスを明確に理解していないでしょう。非公式には、因子Aのすべてのレベルでグループ化された応答Y1の平均は、Aの各レベル(各グループ)のY1の平均が次の場合でも、Aのすべてのレベルでの応答Y2の平均よりも高くなることがありますY2の対応する平均より常に小さい。私は例を読んでいますが、それを見るたびに驚きます。特定の例でよく学んでいないからかもしれません。それらを一般化するのに苦労しています。私は最もよく学び、数式の説明を見たいと思います。テーブルをカウントするのではなく、方程式に依存するパラドックスを説明していただけますか?

また、私が驚いた理由は、パラドックスに関係する平均について無意識に仮定を立てることができたからだと思います。各グループのサンプル数で重み付けするのを忘れるかもしれませんか?しかし、その後、私は各グループの平均を各グループのサンプル数で重み付けすると、(これが真実であれば)明らかではないため、合計平均の推定値がより正確であることを示す式を見たいと思います一般的に私に。単純に、重みに関係なく、サンプルが多いほどの推定値のE[Y1]標準誤差は低くなると思います。


1
ここにシミュレーションに関する関連記事あります。あなたはシンプソンのパラドックスを理解するためにシミュレーションが役立つかもしれない
ハイタオ・ドゥ

これは、シンプソンのパラドックスをオンデマンドで生成するマシンです!
kjetil bハルヴォルセン

回答:


11

カウントデータについてシンプソンのパラドックスを代数的に理解する一般的な方法を次に示します。

エクスポージャーの生存データがあり、2x2の分割表を作成するとします。物事を単純にするために、各セルに同じカウントを設定します。これを緩和することはできますが、代数が非常に面倒になります。

死亡しました生き残った死亡率露出したバツバツ0.5露出しないバツバツ0.5

この場合、死亡率は、露出グループと非露出グループの両方で同じです。

ここで、たとえば女性用と男性用の1つのグループにデータを分割すると、次のカウントを持つ2つのテーブルが取得されます。

男性:

死亡しました生き残った死亡率露出したバツaバツbaa+b露出しないバツcバツdcc+d

および女性の場合:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

ここでB C D [ 0 1 ]男性で集約されたデータテーブルの各セルの割合です。a,b,c,d[0,1]

暴露男性の死亡率は、未露光の男性の死亡率よりも大きい場合シンプソンのパラドックスが発生します暴露、女性の死亡率は、未露光の女性の死亡率よりも大きくなります。暴露男性の死亡率があるときまた、それはまた、発生します以下の未露光男性の死亡率よりもANDさらさ女性の死亡率が少なく、未露光の女性のための死亡率よりも。つまり、

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2

具体的な例として、X=100a=0.5,b=0.8,c=0.9ます。次に、シンプソンのパラドックスが発生します。

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

ここから、dは(0.96,1]

不等式の2番目のセットは次のとおりです。

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

d<0.9 または d>1.44 そして 0.96<d または d>1.44

そのための解決策がありませんd[01]

abcd0.99

0.5/0.5+0.8=38露出したグループの%
0.9/0.9+0.99=48暴露されていないグループの%

および女性の場合:

0.51/0.5+0.82=71露出したグループの%
0.91/0.9+0.992=91暴露されていないグループの%

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 両方のグループで。

さらに、各グループに同数の観測値があり、両方のyが対称的に分布しているとします。次に、全体的な回帰直線を計算します。問題を単純にするために、全体的な回帰直線が各グループの平均を通過すると仮定します。29 グループAおよび 1114 グループBの場合、全体の回帰直線の傾きは次のようになります。 149/112=0.55 これは、全体の回帰係数です バツ。したがって、シンプソンのパラドックスが動作していることがわかります。バツy各グループで個別に、ただしデータが集計される場合は全体的に正の関連性。次のように、Rでこれを簡単に示すことができます。

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

ここに画像の説明を入力してください

赤い点と回帰線はグループA、青い点と回帰線はグループB、黒い線は全体的な回帰線です。


こんにちは、答えてくれてありがとう、しかしこれはシンプソンのパラドックスのもう一つの特定の例です。私は、定理または方程式のセット、より抽象的な一般的なアプローチの形で何かを具体的に求めました。とにかく、他に答えがないので、私はあなたの例を研究します、そして、それが私が概念を一般化するのを助けると感じるならば、私は答えを受け入れます。
DeltaIV

3
@DeltaIV純粋に代数的な引数を使用して新しい答えを書きました。
ロバートロング
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.