Andrew Gelmanは最近のブログ投稿の1つで次のように述べています。
私はシンプソンのパラドックスに反事実または潜在的な結果が必要だとは思わない。シンプソンのパラドックスを、操作できない変数で設定したり、操作に直接興味がない変数で設定したりできるためです。
シンプソンのパラドックスは、より多くの予測変数を追加すると回帰係数が変化するというより一般的な問題の一部であり、符号の反転は実際には必要ありません。
以下は、両方のポイントを説明する私の指導で使用する例です。
性別と身長から収入を予測する回帰を実行できます。性別の係数は10,000 ドル(つまり、同じ高さの男性と女性を比較すると、平均して男性は10,000 ドル多くなります)、高さの係数は500 ドル(つまり、2人の男性または2人の女性を比較)身長が異なる場合、平均して背の高い人は身長1インチあたり500 ドル多くなります)。
これらのcoefをどのように解釈できますか?私は確かにそれは高さに退行に何らかの形で「間違っている」と思われる、(それは高さの異なる同性の2人を比較すると想像するのは簡単です)高のCOEFが解釈しやすいと感じずに生の限り、セックスのための制御します背の低い人と背の高い人の違いは、男性と女性の違いであることによって「説明」できます。しかし、上記のモデルの性別を解釈するのは非常に難しいようです。たとえば、両方の身長が66インチの男性と女性を比較するのはなぜでしょうか。これは、背の低い男性と背の高い女性の比較になります。この推論はすべて漠然と因果関係にあるように見えますが、潜在的な結果を使用してそれを考えることは理にかなっていないと思います。
私はそれについて熟考し(そして投稿にコメントしさえしました)、ここでより明確に理解されるように懇願する何かがあると思います。
性別の解釈に関する部分までは大丈夫です。しかし、私は背の低い男性と背の高い女性を比較することの背後にある問題が何であるかわかりません。私のポイントは次のとおりです。実際、それはさらに意味があります(男性は平均して背が高いと仮定すると)。収入の違いは高さの違いによって何らかの部分で説明されるというまったく同じ理由で、「背の低い男性」と「背の低い女性」を比較することはできません。同じことは背の高い男性と背の高い女性にも当てはまり、さらに背の低い女性と背の高い男性にも言えます(いわば、それはさらに問題外です)。したがって、基本的に身長の影響は、背の低い男性と背の高い女性を比較する場合にのみ排除されます(これは、性別の係数の解釈に役立ちます)。人気のマッチングモデルの背後にある同様の基礎概念に鐘を鳴らしていませんか?
シンプソンのパラドックスの背後にある考え方は、人口効果がサブグループごとの効果とは異なる可能性があるということです。これはある意味で彼のポイント2と、高さを単独で制御すべきではないことを認めているという事実に関連しています(変数バイアスの省略)。しかし、私はこれを性別の係数に関する論争と関連付けることはできませんでした。
それをもっとはっきりと表現できるかもしれませんか?または私の理解についてコメントしますか?