ジューダパール著 『なぜの書』:なぜ彼は統計をバッシングするのですか?


79

私は読んでいますなぜの書籍をユダヤパールで、それは私の皮膚の下になっている1。具体的には、彼は統計が因果関係を調査することは決してできず、因果関係に決して関心がない、そして統計が「モデルになった」というストローマンの議論を立てることにより、無条件に「古典的な」統計をバッシングしているように見えます-盲目のデータ削減企業」。統計は彼の本の中でいSワードになります。

例えば:

統計学者は、どの変数を制御すべきか、またどの変数を制御すべきではないかについて非常に混乱しているため、デフォルトのプラクティスでは、測定可能なすべてのものを制御することでした。[...]これは便利で簡単な手順ですが、無駄があり、エラーが発生します。因果革命の重要な成果は、この混乱を終わらせることでした。

同時に、統計学者は、彼らが因果関係についてまったく話すことを嫌うという意味で、支配を大きく過小評価している[...]

しかし、因果モデルは、永遠のような統計にあります。つまり、回帰モデル本質的に因果モデルとして使用できます.1つの変数が原因であり、別の変数が結果であると本質的に仮定しているため(相関は回帰モデリングとは異なるアプローチです)、この因果関係が観察されたパターンを説明するかどうかをテストするためです。

別の引用:

特に統計学者がこのパズル[モンティホールの問題]を理解するのが難しいことは不思議ではありません。RA Fisher(1922)が言うように、彼らは「データの削減」に慣れており、データ生成プロセスを無視しています。

これはアンドリュー・ゲルマンがベイジアンとフリークエンシーの有名なxkcd漫画に書いた返事を思い出させます。「それでも、賢明なベイジアンを浅い教科書のアドバイスに盲目的に従うフリークエンシーの統計学者と比較するという点で、漫画全体は不公平だと思います」

私はそれを感じるように、ユダヤ真珠ブック内に存在し、S-言葉の不実表示の量は私が(今まで私が組織し、科学的仮説テストの有用かつ興味深い方法として認識因果推論だろうかなさ2)疑問です。

質問:ユダヤ真珠は統計を誤って伝えていると思いますか?因果推論をそれよりも大きくするだけですか?因果推論は大きなRを持つ革命であり、それが私たちのすべての思考を本当に変えると思いますか?

編集:

上記の質問は私の主な問題ですが、確かに意見があるので、これらの具体的な質問に答えてください。(1)「因果革命」の意味は何ですか?(2)「正統的な」統計とどう違うのですか?

1.また、彼はそのような謙虚な男だからです。
2.統計的な意味ではなく、科学的な意味です。

編集:Andrew Gelmanはこのブログ記事をJudea Pearlsの本に書いており、彼はこの本に関する私の問題の説明を私よりもずっと上手く行ったと思う。以下に2つの引用符を示します。

この本の66ページで、PearlとMackenzieは、その統計が「モデルブラインドデータ削減企業になった」と書いています。何言ってるんだ?私は統計学者で、政治から毒物学までの分野で30年間統計を行ってきました。「モデルブラインドデータ削減」?それはただのでたらめです。モデルは常に使用しています。

そしてもう一つ:

見て 多元主義者のジレンマについて知っています。一方では、パールは彼の方法が以前に来たすべてのものより優れていると信じています。いいよ 彼にとって、そして他の多くの人にとって、それらは因果推論を研究するための最高のツールです。同時に、多元主義者、または科学史の学生として、ケーキを焼く方法はたくさんあることを認識しています。本当に役に立たないアプローチに敬意を払うのは難しいことです。ある時点でそれを行う唯一の方法は、実際の人々がこれらの方法を使用して実際の問題を解決することを理解することです。たとえば、p値を使用して意思決定を行うことは、多くの科学的災害につながるひどく論理的に一貫性のないアイデアだと思います。同時に、多くの科学者は学習のためのツールとしてp値を使用することができます。私はそれを認識しています。同様に、統計、階層的回帰モデリング、相互作用、後層化、機械学習などの装置が原因推論における実際の問題を解決することを、パールが認識することをお勧めします。パールのような私たちの方法も混乱する可能性があります-GIGO!-多分、彼のアプローチに切り替えた方が良いと思うパールの権利。しかし、彼が私たちが何をするかについて不正確な声明を出したとき、それが助けになるとは思わない。


41
線形回帰は因果モデルではありません。単純線形回帰はペアワイズ相関と同じで、唯一の違いは標準化です。したがって、回帰が原因であると言えば、相関についても同じことが当てはまります。相関因果関係はありますか?回帰を使用して、任意の変数間のあらゆるナンセンスな関係を予測できます(偶然多くの「重要な」結果があります)。
ティム

8
統計の因果関係に関する推論へのアプローチがパール、ルービン、ヘックマンなどの間で最もメリットがあるという意見の相違は、悪化しているように見え、パールの口調はかつてないほど謙虚になっていると思います。彼が提供している真の洞察からあなたをそらさないでください。彼の以前の本「因果関係」を読んでください。
CloseToC

7
@CloseToC私は(すなわち、論理的に等価なフレームワーク、ここを参照してくださいパール、ルービンとヘックマンが邪魔にすべてが同じフレームワーク内で作業していることを追加しますstats.stackexchange.com/questions/249767/...その紛争が異なっているので、) 「線形回帰は因果モデルです」などの議論からレベル。
カルロスチネリ

9
私は本に自分自身をいらいらさせてきました。そこには単純に誤った統計的主張がいくつかあります(引用することはできませんが、余白に私のメモが入っている本は自宅にあります)、私が真珠の本を書くのを手伝ったジャーナリストだけでなく、真珠自身も貧しい統計学者であったのだろうかと思いました。(言うまでもなく、私は、このような尊敬の科学者の仕事では、このような露骨なミスを発見することは非常に驚きました。)誰が謙虚さのためにパールを非難しないでしょうでもそこかかわらず、彼の論文は、はるかに優れています...
リチャード・ハーディ

15
このスレッドは、すでに(a)非常に賢い人からの特定の本(b)その賢い人のペルソナと議論のスタイル(c)特定の視点が正しいか、誇張されているかどうかなど、すでに絡み合っているという懸念があります。
ニックコックス

回答:


59

パールの口調は慢であり、「統計学者」の彼の特徴づけは単純でモノリシックであることに完全に同意します。また、彼の文章は特に明確ではありません。

しかし、彼にはポイントがあると思います。

因果推論は私の正式なトレーニング(MSc)の一部ではありませんでした。トピックに最も近いのは、実験計画の選択科目でした。パールの本「因果関係」は、この考えに対する反論に対する私の最初の暴露でした。明らかに、すべての統計学者やカリキュラムについて話すことはできませんが、私自身の観点から、因果推論は統計学の優先事項ではないというパールの見解に同意しています。

統計学者が厳密に必要な変数よりも多くの変数を制御することもありますが、これによりエラーが発生することはほとんどありません(少なくとも私の経験では)。

これは、2010年に統計学の修士号を取得した後、私が抱いた信念でもあります。

しかし、それは非常に間違っています。共通の効果(本では「コライダー」と呼ばれます)を制御する場合、選択バイアスを導入できます。この実現は私にとって非常に驚くべきことであり、私の因果関係の仮説をグラフとして表現することの有用性を本当に確信させました。

編集:選択バイアスについて詳しく説明するように頼まれました。このトピックは非常に微妙です。因果図でedX MOOCをよくお読みになることを強くお勧めします。これは、選択バイアスに特化した章があるグラフの非常に良い紹介です。

おもちゃの例については、本で引用されているこの論文を言い換えると、変数A =魅力、B =美、C =コンピテンスを考慮してください。BとCが一般集団で因果的に無関係であると仮定します(すなわち、美は能力を引き起こさず、能力は美を引き起こさず、美と能力は共通の原因を共有しません)。また、BまたはCのいずれかが魅力的であるために十分であると仮定します。つまり、Aはコライダーです。Aを条件付けすると、BとCの間に偽の関連付けが作成されます。

より深刻な例は「出生体重パラドックス」であり、妊娠中の母親の喫煙(S)は、赤ちゃんが体重不足(U)である場合、赤ちゃんの死亡率(M)を減少させるようです。提案された説明は、先天性欠損症(D)も低出生体重を引き起こし、死亡率に寄与するというものです。対応する因果図は{S-> U、D-> U、U-> M、S-> M、D-> M}で、Uはコライダーです。条件付けを行うと、偽の関連付けが生じます。この背後にある直感は、母親が喫煙者であれば、低出生体重は欠陥による可能性が低いということです。


8
+1。選択バイアスの導入方法についてもう少し詳しく説明していただけますか?おそらく少し具体的な例が、ほとんどの読者にとってそれを明確にするでしょう。
アメーバ

2
編集してくれてありがとう。これらは非常に明確な例です。
アメーバ

それで、喫煙者の赤ちゃんの低出生体重の直感は正しいでしょう?
マーレディ

@Malandy:このモデルはデータと一貫性があり、直感的に理解できます。正しいかどうかわかりません。
ミッチ


71

あなたのまさに質問は、パールが言っていることを反映しています!

単純な線形回帰は本質的に因果モデルです

Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

一方、線形構造方程式は因果モデルです。しかし、最初のステップは、統計的仮定(観測された結合確率分布の制約)と因果的仮定(因果モデルの制約)の違いを理解することです。

Judea Pearlが統計を誤って伝えていると思いますか?

いいえ、私はそうは思いません。これらの誤解は毎日見られるからです。もちろん、一部の統計学者は因果推論を行っているため、パールはいくつかの一般化を行っています(Don Rubinは潜在的な結果を促進する先駆者でした...また、私は統計学者です!)。しかし、彼は、因果効果が何であるかを正式に定義するためにさえ、伝統的な統計教育の大部分が因果関係を避けると言っているのは正しい。

YXE[Y|X] E[Yx]E[Y|do(x)]

あなたが本から持ってきた引用も素晴らしい例です。伝統的な統計の本では、交絡因子とは何かの正しい定義も、観察研究で共変量を調整する必要がある(または調整すべきでない)場合のガイダンスもありません。一般に、「共変量が治療と結果に関連付けられている場合は、調整する必要がある」などの「相関基準」が表示されます。この混乱の最も顕著な例の1つは、シンプソンのパラドックスに現れています。反対符号の2つの推定値に直面したとき、どちらを使用するか、調整済みか未調整かを選択してください。もちろん、答えは因果モデルに依存します。

そして、この質問が終結したと彼が言うとき、パールはどういう意味ですか?回帰による単純な調整の場合、彼はバックドア基準を参照しています(詳細はこちら)。そして、一般的な識別については、単純な調整を超えて、特定のセミマルコフDAGの因果効果を識別するための完全なアルゴリズムがあることを意味します。

ここでのもう1つの発言は価値があります。従来の統計学が実験計画で多くの重要な作業を行っていた実験的研究でさえも、結局のところ、まだ因果モデルが必要です。 実験は、コンプライアンスの欠如、フォローアップの損失、選択バイアスに苦しむ可能性があります...また、ほとんどの場合、実験の結果を分析した特定の母集団に限定したくない場合は、一般化する必要がありますより広い/異なる母集団に対する実験結果。ここで、もう一度、尋ねることがあります:あなたは何のために調整する必要がありますか?そのような外挿を可能にするのに十分なデータと実質的な知識がありますか?これらはすべて因果関係の概念です。したがって、因果関係の仮定を正式に表現し、望みどおりに実行できるかどうかを確認するための言語が必要です。

要するに、これらの誤解は統計と計量経済学に広く見られます。ここには、以下のような相互検証の例がいくつかあります。

などなど。

因果推論は大きなRを持つ革命であり、私たちの考えをすべて変えると思いますか?

多くの科学の現状、どれだけ進歩したか、どれだけ速く変化しているのか、どれだけできるのかを考えると、これはまさに革命だと思います。

PS:パールは、UCLAの因果関係のブログで、この議論に興味を持つ2つの投稿を提案しまし。投稿はこちらこちらでご覧いただけます

PS 2:1月に彼の新しい編集で言及したように、Andrew Gelmanは彼のブログに新しい投稿をしています。ゲルマンのブログでの議論に加えて、パールはツイッターでも回答しています(以下)。

#BookofwhyのGelmanのレビューは、統計研究者の幅広いサークルを麻痺させる態度を表しているため、興味深いはずです。私の最初の反応はhttps://t.co/mRyDcgQtEcに投稿されました関連記事:https://t.co/xUwR6eCGrZ およびhttps://t.co/qwqV3oyGUy

—ジューダパール(@yudapearl)2019年1月9日


4
ありがとうございました。しかし、まあ、単純に書くと、E [X | Y]とE [Y | X]を計算できますが、DAGでX←YとX→Yを書くことができます。いずれにせよ、私科学的仮説またはモデルから始めなければなりません。私の仮説、私のモデル-私の選択。私何かをすることができるという事実は、私それをするべきだということではありません。
1

3
@Januaryそれはあなたがすべきことを意味するものではありません、ここでのポイントは、あなたが推定したいものを正確に明確にすることができること(因果推定量)、あなたの因果的仮定を正確に明確にすること(原因と統計的仮定の区別を明確にする)、チェックそれらの因果的仮定の論理的意味と、因果的仮定+データがクエリに答えるのに十分かどうかを理解できる。
カルロスチネリ

3
XY

4
私はそう思う:あなたの平均的な統計学者は、制御された実験からの因果推論に精通している可能性が高いが、確かに因果関係との混乱を招く恐れがないことを示唆することは完全に不公平ではないようだ。データ。私は最後を引用の文脈と考えています(本を読んでいません)。これは、この投稿の一部の読者が取り上げないかもしれないものです。
スコルチ

5
@January要するに「共変量の調整」は、必ずしもそれらの変数から因果効果の推定値のバイアスを排除したことを意味するわけではありません
アレクシス

31

私はユダヤの執筆のファンであり、因果関係(愛)と理由書(好き)を読みました。

ユダヤが統計を破壊しているとは思わない。批判を聞くのは難しいです。しかし、批判を受けていない人や分野については何が言えますか?彼らは偉大さから自己満足に向かう傾向があります。あなたは尋ねなければなりません:批判は正しく、必要で、有用であり、代替案を提案していますか?これらすべてに対する答えは、強調された「はい」です。

1

必要ですか?メディアは、主要な曝露の健康への影響に関する一見矛盾した声明であふれています。データ分析との不一致により証拠が停滞しており、有用なポリシー、医療手順、およびより良い生活のための推奨事項が不足しています。

有用?Judeaのコメントは適切で具体的で、一時停止するのに十分です。統計学者やデータの専門家が遭遇する可能性のあるデータ分析に直接関連しています。

代替案を提案していますか?はい、Judeaは実際、高度な統計手法の可能性について、さらにそれらが既知の統計フレームワーク(構造方程式モデリングなど)にどのように還元されるか、および回帰モデルへの接続についても説明しています。結局のところ、モデリングアプローチを導いたコンテンツ知識の明示的な声明が必要になります。

Judeaは、すべての統計的手法(回帰など)を無効化することを単に提案しているわけではありません。むしろ、彼はモデルを正当化するためにいくつかの因果理論を受け入れる必要があると言っています。

1


3
素敵な答え。統計学者ではないが、統計学と生物学の間のインターフェースとして長年にわたって役立ってきたことに注意してください。まったく、パールが明示的に述べているように?
1

4
@January au contraire。統計学者の分析で因果推論を受け入れることの不足は、頻度主義的推論の理解の不足に直接関係していると思います。欠けているのは反事実的推論です。
AdamO

4
1「『調整『重要』または他のナンセンス『関連』『便利』なアプローチがあるとして、彼らはDDから手摘みされたので、変数を選択することを含む』実際にそれらのうち、特定の因果関係についての正式な仮説を組み込むことなく(アラカルト DAGの正式な使用)。」編集を追加しました。:)
アレクシス

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
スコルチ

23

私はこの本を読んでいませんので、あなたが与える特定の引用だけを判断できます。しかし、これに基づいても、これは統計の専門家にとって非常に不公平であることに同意します。私は実際、統計学者は常に統計的関連性(相関など)と因果関係の違いを強調し、両者の混同に警告することで非常に良い仕事をしたと思っています。実際、私の経験では、統計学者は一般的に原因と相関関係の間の遍在する混乱と戦う主要な専門家の力でした。統計学者が「...因果関係について話すことへの嫌悪」であると主張することは、まったくの虚偽(および実質的に中傷)です。私はあなたがこのようなrog慢な馬鹿を読んでイライラしている理由を見ることができます。

私はそれが非統計学者にとって合理的に一般的であると言うでしょう統計モデルを使用して、統計的関連性と因果関係の関係を十分に理解していない。他の分野からの優れた科学的訓練を受けている人もいますが、その場合は問題をよく知っているかもしれませんが、統計モデルを使用してこれらの問題をよく理解していない人もいます。これは、実践者が統計の基本的なトレーニングを受けているが、深いレベルで学習していない多くの応用科学分野に当てはまります。これらの場合、多くの場合、これらの概念とそれらの適切な関係の違いを他の研究者に警告するのは専門の統計学者です。統計学者は、多くの場合、RCTおよび因果関係の分離に使用されるコントロールを含むその他の実験の主要な設計者です。ランダム化、プラセボ、潜在的な交絡変数との関係を切断しようとするために使用される他のプロトコル。統計学者が厳密に必要な変数よりも多くの変数を制御することもありますが、これはエラーになりません(少なくとも私の経験では)。ほとんどの統計学者は、原因となる推論を目的として回帰分析を行う場合、変数コライダー変数を交絡させます。また、常に完全なモデルを構築しているわけではない場合でも、因果関係の考慮を避けているという考えはばかげています。

Judea Pearlは因果関係に関する彼の研究で統計学に非常に貴重な貢献をしてきたと思います。この素晴らしい貢献に感謝します。彼は因果関係を分離するのに役立ついくつかの非常に有用な形式論を構築し、検討してきました。彼の仕事は優れた統計教育の主要なものになりました。彼の本「Causality」を読みました私は大学院生でしたが、それは私の棚にあり、他の多くの統計学者の棚にあります。この形式主義の多くは、代数的システムに形式化される前から統計学者に直観的に知られていることを反映しているが、それはいずれにせよ非常に価値があり、明白なものを超えている。(実際、将来、公理的レベルで発生する確率代数と「do」操作のマージが見られると思います。これはおそらく最終的に確率論の核となるでしょう。これを統計教育に直接組み込みたいと思います。 、そのため、確率モデルについて学習するときに、因果モデルおよび「do」操作について学習します。

ここで心に留めておくべき最後のことは、目標が予測的であり、開業医が因果関係を推測しようとしない統計の多くの応用があるということです。これらのタイプのアプリケーションは統計では非常に一般的であり、そのような場合、因果関係に制限しないことが重要です。これは、金融、人事、労働力モデリング、および他の多くの分野で統計のほとんどのアプリケーションに当てはまります。変数を制御できない、または制御すべきでないコンテキストの量を過小評価しないでください。


更新:カルロスが提供したものと私の答えが一致しないことに気付きました。おそらく、「定期的なトレーニングだけで統計学者/計量経済学者」を構成するものについては意見が分かれます。私が「統計学者」と呼ぶ人は、通常、少なくとも大学院レベルの教育を受けており、通常、専門的な訓練/経験を積んでいます。(たとえば、オーストラリアでは、私たちの国家専門機関で「認定統計学者」になるための要件は、優等学位の後に最低4年の経験、または通常の学士号の後に6年の経験を必要とします。)統計の勉強は統計学者ではありません

統計学者による因果関係の理解不足の証拠として、カルロスの答えは、回帰における因果関係について尋ねるCV.SEに関するいくつかの質問を指し示しています。これらのケースのすべてにおいて、質問は明らかに初心者(統計学者ではない)である人によって尋ねられ、カルロスや他の人(正しい説明を反映する)によって与えられた答えは非常に支持された答えです。実際、いくつかのケースで、カルロスは因果関係の詳細な説明を行っており、彼の答えは最も高く評価されています。これは統計学者が因果関係を理解し​​ていることを確かに証明します。

他のいくつかのポスターは、因果関係の分析が統計カリキュラムに含まれていないことが多いと指摘しています。それは事実であり、非常に残念ですが、ほとんどの専門統計学者は最近の卒業生ではなく、標準的な修士課程に含まれるものをはるかに超えて学んでいます。繰り返しますが、この点で、私は他のポスターよりも統計学者の平均的な知識レベルの見方が高いようです。


12
私は非統計学者であり、統計の正式なトレーニングは同じ分野の非統計学者によって行われ、統計学を適用する非統計学者と教えたり研究したりしています。(例えば)相関関係は因果関係ではないという原則は、私の分野では繰り返しのマントラであり、かつてはそうだったことを保証できます。確かに、降雨と小麦の収穫量との相関関係だけでは、それらと基礎となるプロセスとの関係について述べる必要があるとは思えない人々に出くわすことはありません。通常、私の経験では、非統計学者も長い間これを考えていました。
ニックコックス

8
疫学者として、私はこのマントラにますます悩まされています。@NickCoxが言うように、これは非科学者でさえ理解しているものです。私が抱えている問題は、誰もが「相関関係は因果関係を意味しない!」観察研究(ケースコントロール研究、例えば)が発表されるたび。はい、相関関係は因果関係を意味するものではありませんが、研究者は通常、そのことを十分に認識しており、因果解釈が少なくとももっともらしい方法で研究を設計および分析するためにあらゆることを行います。
COOLSerdash

5
@Nick Cox:これをよく理解している多くの非統計学者がいることをより正確に述べるために編集しました。分散を他の職業に投げかけるつもりはありませんでした- 統計学者がこの問題を非常によく理解していることを強調するだけです。
ベン

7
@NickCox「相関関係は因果関係ではありません」よりも、因果関係に関するPearlの貢献にははるかに多くのものがあります。私はここでカルロスと一緒です。因果関係について学ぶだけで十分であり、コース全体である必要があります。私の知る限り、ほとんどの統計部門はそのようなコースを提供していません。
ニールG

12
@Ben:パールは、統計学者が相関関係と因果関係を混同していると非難していません。彼は、彼らが主に因果的な推論を避けていると非難している。彼の口調は慢であることに同意しますが、彼にはポイントがあると思います。
ミッチ

11

単純な線形回帰は本質的に因果モデルです

線形回帰モデルが因果関係にない場合に思いついた例を次に示します。薬物が時間0(t = 0)に服用されt = 1 で心臓発作の速度に影響を与えないことをアプリオリましょう。で心臓発作トン= 1で心臓発作に影響= 2トンを(つまり、以前のダメージがダメージを受けやすく心になります)。t = 3での生存は、人々がt = 2で心臓発作を起こしたかどうかのみに依存します。t= 1での心臓発作は、t = 3での生存に現実的に影響しますが、矢印はありません。シンプル。

凡例は次のとおりです。

DAGレジェンド

真の因果グラフは次のとおりです。 コライダーバイアス

t = 1での心臓発作がt = 0での薬物摂取とは無関係であることを知らないふりをして、単純な線形回帰モデルを構築して、t = 0での心臓発作に対する薬物の効果を推定します。ここで、予測変数はDrug t = 0であり、結果変数はHeart Attack t = 1です。持っているデータはt = 3で生き残っている人だけなので、そのデータで回帰を実行します。

以下は、Drug t = 0の係数の95%ベイジアン信頼区間です。 95%の信頼できる間隔、コライダーバイアス

確認できる確率の多くは0より大きいため、効果があるように見えます!ただし、効果が0であることをアプリオリに知っています。Judea Pearlなどによって開発された因果関係の数学により、この例には(コライダーの子孫の条件付けに起因する)バイアスがあることが容易にわかります。Judeaの仕事は、このような状況では、完全なデータセットを使用する必要があることを意味します(つまり、生き残った人だけを見る必要はありません)。

バイアスなし

完全なデータセットを見たときの95%の信頼できる間隔を次に示します(つまり、生き残った人を条件にしない)。

95%の信頼できる間隔、バイアスなし

これは0を中心に密に配置されており、本質的にはまったく関連付けられていません。

実際の例では、物事はそれほど単純ではないかもしれません。システマティックバイアスを引き起こす可能性のある変数はさらに多くあります(混乱、選択バイアスなど)。分析で調整するものは、パールによって数学化されています。アルゴリズムは、調整する変数を提案したり、調整が系統的バイアスを除去するのに十分ではない場合を教えてくれます。この正式な理論が設定されていれば、何を調整すべきか、何を調整すべきでないかについて議論するのにそれほど時間を費やす必要はありません。結果が適切かどうかについて、すぐに結論を出すことができます。実験をより良く設計でき、観測データをより簡単に分析できます。

ここだ、自由に利用可能なコースは、因果のDAGにオンラインミゲルエルナンによります。それには、教授/科学者/統計学者が目前の問題について反対の結論に達した実生活のケーススタディがたくさんあります。それらのいくつかはパラドックスのように見えるかもしれません。ただし、Judea Pearlのd-separationおよびbackdoor-criterionを使用して簡単に解決できます

参考までに、データ生成プロセスのコードと、上記の信頼できる間隔のコードを以下に示します。

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

2つの論文、2番目の論文は古典的なもので、ユダヤのポイントとこのトピックをより一般的に説明するのに役立つと思います。これは、SEM(相関と回帰)を繰り返し使用し、彼の批判に共鳴する人から来ています。

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

基本的に、これらの論文は、相関モデル(回帰)が通常、強力な因果推論を暗示するものとして受け取れない理由を説明しています。関連付けのパターンは、特定の共分散行列(つまり、方向の指定や変数間の関係)に適合できます。したがって、実験計画、反事実的命題などのようなものの必要性。これは、推定結果が推定効果の前に時間内に発生するデータに時間的構造がある場合にも当てはまります。


1

「... 1つの変数が原因であり、別の変数が結果であると本質的に仮定しているため(相関は回帰モデリングとは異なるアプローチです)...」

回帰モデリングでは、ほとんどの場合、この仮定は行われません。

「...そして、この因果関係が観察されたパターンを説明しているかどうかをテストします。」

因果関係を仮定し、観測に対して検証する場合、SEMモデリングを行っているか、パールがSCMモデリングと呼んでいます。統計のドメインのその部分を呼び出すかどうかは議論の余地があります。しかし、私はほとんどがそれを古典的な統計とは呼ばないと思います。

一般的に統計を捨てるのではなく、パールは、統計学者の無言を原因の意味論に対処するためだけに批判していると思います。彼は、カール・セーガンが「出入り」現象と呼んでいる現象のために、これを深刻な問題だと考えています。 2つの結果は、一般の人々の心の中で因果的にリンクされます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.