カウントデータについてシンプソンのパラドックスを代数的に理解する一般的な方法を次に示します。
エクスポージャーの生存データがあり、2x2の分割表を作成するとします。物事を単純にするために、各セルに同じカウントを設定します。これを緩和することはできますが、代数が非常に面倒になります。
露出した露出しない死亡しましたバツバツ生き残ったバツバツ死亡率0.50.5
この場合、死亡率は、露出グループと非露出グループの両方で同じです。
ここで、たとえば女性用と男性用の1つのグループにデータを分割すると、次のカウントを持つ2つのテーブルが取得されます。
男性:
露出した露出しない死亡しましたバツaバツc生き残ったバツbバツd死亡率aa + bcc + d
および女性の場合:
露出した露出しない死亡しましたバツ(a − 1 )バツ(c − 1 )生き残ったバツ(b − 1 )バツ(d−1)Death Ratea−1a+b−2c−1c+d−2
ここで、B 、C 、D ∈ [ 0 、1 ]男性で集約されたデータテーブルの各セルの割合です。a,b,c,d∈[0,1]
暴露男性の死亡率は、未露光の男性の死亡率よりも大きい場合シンプソンのパラドックスが発生しますと暴露、女性の死亡率は、未露光の女性の死亡率よりも大きくなります。暴露男性の死亡率があるときまた、それはまた、発生します以下の未露光男性の死亡率よりもANDさらさ女性の死亡率が少なく、未露光の女性のための死亡率よりも。つまり、
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
具体的な例として、X=100、a=0.5,b=0.8,c=0.9ます。次に、シンプソンのパラドックスが発生します。
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
ここから、dは(0.96,1]
不等式の2番目のセットは次のとおりです。
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d< − 0.9 または d> 1.44 ) および (0.96 < d または d> 1.44 )
そのための解決策がありませんd∈ [ 0 、1 ]
a 、b 、cd0.99
0.5 /(0.5 + 0.8 )= 38 曝露群における%
0.9 /(0.9 + 150 )= 48 未露光群における%
および女性の場合:
(0.5 − 1 )/(0.5 + 0.8 − 2 )= 暴露群で71 %
(0.9 − 1 )/(0.9 + 0.99 − 2 )= 非暴露群で91 %
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.