と両方に影響を及ぼす変数が省略されている場合、でのの回帰は因果関係である必要はありません。しかし、省略された変数と測定誤差がない場合、回帰は原因ですか?つまり、すべての可能な変数が回帰に含まれている場合はどうでしょうか?
と両方に影響を及ぼす変数が省略されている場合、でのの回帰は因果関係である必要はありません。しかし、省略された変数と測定誤差がない場合、回帰は原因ですか?つまり、すべての可能な変数が回帰に含まれている場合はどうでしょうか?
回答:
いいえ、そうではありません。いくつかの反例を示します。
最初は逆因果です。因果モデルがであると考えてください。ここで、とは標準ガウス確率変数です。その後、ため、発生しないが、は依存します。
2番目の例は、コライダーの制御です(こちらを参照)。因果モデルを考えます。つまり、はを引き起こさず、は一般的な原因です。しかしノートあなたが含む回帰を実行した場合、という、の回帰係数一般的な原因のコンディショニングとの間の関連性を誘導しますので、ゼロではありませんと(あなたが井戸として、ここで確認したいことがあり存在下でのパス解析条件付きコライダー)。
より一般的には、回帰に含まれる変数がバックドア基準を満たす場合、X上のの回帰は原因となります。
この質問に対するCarlos Cinelliの重要な答えに加えて、回帰係数が原因ではない可能性があるという理由がいくつかあります。
第一に、モデルの仕様の誤りにより、パラメーターが非因果的になる可能性があります。モデルに関連するすべての変数があるからといって、正しい方法で調整したわけではありません。非常に単純な例として、0の周りに対称的に分布する変数を考えてみましょう。結果変数が、E (Y ∣ X )= X 2のような方法で影響を受けると仮定します。(X 2ではなく)XでYを回帰すると、Xの推定係数が得られます。影響するすべての(唯一の)変数を調整したにもかかわらず、明らかにバイアスがかかった約0の値。
第二に、逆因果関係のトピックに関連して、選択バイアスを持つ可能性があるというリスクもあります。つまり、推論を導きたい母集団を代表しないようにサンプルが選択されているというリスクです。さらに、データがランダムに完全に欠落していない場合、データの欠落によってバイアスが生じる可能性もあります。