どのようにして因果関係を検証しますか?


9

2つの量が相関していることを示した後、関係が因果関係であるとどのように推測しますか?そしてさらに、どれが何を引き起こすのですか?理論的には、2つの変数の間に存在する可能性のある事故のきずなを破るために、「ランダムな割り当て」(正しい単語が何であれ)を使用できます。しかし、これができない場合もあります。たとえば、1週間にたばこで測定した人が喫煙する頻度と、年で測定した平均余命を比較します。2つのグループをランダムに選択できます。片方のグループを煙にして、もう片方を煙にしない 割り当てはランダムであるため、これはそれらの間の他の関係を壊すはずです。しかし、これはもちろん多くの異なる理由で行うことができません。それで、使用できるテクニックのいくつかは何ですか?


1
慎重に計画された実験を通して。;-)
StatsStudent 2015

@StatsStudentどんな実験?たとえば、たばこvs平均余命を考えてみましょう。寿命を下げると思われる場合、ある種の制御条件下でその実験を本当に実行しますか?実験で因果関係を確認するのは簡単です。しかし、相関プロットからそれをどのように行うのでしょうか?
Nicolas Bourbaki

@NicolasBourbakiあなたの質問は、量が相関していると仮定することから始まります。これは、変数がY = A * X + Bのように線形に関連していると想定していることを意味しますか?
cantorhead 2016年

@NicolasBourbaki を定義することができ、多くの人がXYの「原因」と考えます。一方、X t Y t + 1 は相関していません。Y(t+1)=cos(X(t))1+noiseXYX(t)Yt+1
cantorhead 2016年

@NicolasBourbaki以下の線形性を想定して回答を提供しましたが、より一般的な回答を提供したいと思いますが、線形関係のみに関心がある場合はトピックから外れます。
cantorhead 2016年

回答:


5

これは非常に良い質問だと思います。私はこの問題に頻繁に遭遇し、多くのことを反省します。私は医学で研究を行っていますが、医学では、無作為化臨床対照試験、できれば錠剤(または他の三重盲検可能な暴露)が証明されるまで、因果関係は証明されません関心のある応答への影響。他のすべての研究は関連研究であると考えられており、その影響を減らす傾向があるため、これは非常に悲しいことです。

ヒルとリチャードドールはこれについて考えました。前者は因果関係に関するヒルの基準を策定しました:

ブラッドフォードヒルの基準は、ヒルの因果関係基準とも呼ばれ、発生率と結果の因果関係の適切な証拠を提供するために必要な最小限の条件のグループであり、英国の疫学者サーオースティンブラッドフォードヒル(1897–1991)によって確立されました。 1965年。


強さ:小さい関連付けは、因果関係がないことを意味しませんが、関連付けが大きいほど、因果関係である可能性が高くなります。 一貫性:さまざまな場所のさまざまな人がさまざまなサンプルで観察した一貫性のある所見は、影響の可能性を高めます。 特異性:特定の場所に非常に特定の集団や他にありそうな説明のない疾患の場合、原因となる可能性があります。因子と効果の間の関連がより具体的であるほど、因果関係の確率は大きくなります。 一時性:効果は原因の後に発生する必要があります(原因と予期される結果の間に予期される遅延がある場合、その遅延の後に効果が発生する必要があります)。 生物学的勾配:一般に、曝露量が多いほど、影響の発生率が高くなります。ただし、場合によっては、因子が存在するだけで影響が発生することがあります。他の場合では、反比例が観察されます:より多くの曝露はより低い発生率につながります。 妥当性:原因と結果の間のもっともらしいメカニズムが役立ちます(ただし、Hillは、メカニズムの知識は現在の知識によって制限されることに注意しました)。 一貫性:疫学的所見と実験室所見の一貫性は、影響の可能性を高めます。しかし、ヒルは「そのような[実験室]証拠の欠如は関連性に対する疫学的影響を無効にすることはできない」と指摘した。 実験:「時折、実験的証拠にアピールすることが可能です」。 類推:同様の要因の影響を考慮することができます。


これは、ランダム化された試験(特定の分野では重要ではない可能性があります)が登場する前の約50年前に策定されましたが、Hillの基準で実験に重要な役割が与えられなかったことは注目に値します。

観測データを適切な統計手法で分析すると、因果関係の推論が可能になると考えたいのですが。(もちろん、これは多くの要因に依存します。)しかし、私の分野では、患者の管理の変更に関して、無作為化試験以外によって形作られたガイドラインを見ることはまれであり、ガイドラインの前置きは、特定の因果関係が無作為化試験で得られた。

今、私はあなたの多くが私に同意しないことを知っています。私も自分に同意しません。しかし、それは議論に加わるかもしれません。


「(これはあなたの特定の分野には関係ないかもしれません)」私の興味は代数幾何学と算術です。これは、想像できる限り統計から削除されています。好奇心でお願いします。
Nicolas Bourbaki、2015

2

統計は、データの規則性を検出およびモデル化するためのツールを提供します。モデリングプロセスは、通常、主題に関する知識によって導かれます。モデルが主題のメカニズムを表す場合、推定モデルの統計的特性は、データがモデル化されたメカニズムと矛盾しているかどうかを示します。次に、因果関係(またはその欠如)が推測されます-そして、これは主題領域で行われます

バツy

バツy






0

質問は現在、量が相関していると想定しています。これは、相関を決定する人が、変数が線形関係を共有していると信じる十分な理由がなければならないことを意味します。

グレンジャー因果関係は、線形因果関係を決定するための最良のツールかもしれません。グレンジャーは線形因果関係に関する彼の研究に対してノーベル賞を共有した経済学者でした。

{バツt}=1kYt

  1. 原因は効果の前に発生するはずです。
  2. 原因には、他の方法では利用できない影響に関する情報が含まれている必要があります。

バツ=[バツt11バツt21バツtメートル1バツt12バツt22バツtメートル2バツtメートルk]TY=[Yt1Yt2Ytメートル]Tメートルメートルメートル

Yt=Y+εtYt=[Yバツ]T+εt
バツtjYtεtεt

Zt1ZtpZ=[Zt11Zt21Ztメートルp]T

Yt=[YZ]T+εtYt=[YバツZ]T+εt

これは大まかなスケッチであり、多くの著者がこのアイデアを改善したと思います。


@cantorheadのサイトへようこそ。ここでは(質問と)回答を自己完結型にする必要があります。「ここでより具体的にしよう」と試みて、人々にGoogle GCを提案するだけではない方がいいでしょう。
ガン-モニカの回復

0

できません-少なくとも統計内ではできません。

マキシム:ある変数の効果が別の変数によって引き起こされていることを確実に知ることはできません。理由:気づいていない別の変数がないかどうか、そして収集したデータではおそらくわかりません。

人間の行動のように、データが静的で現象が動的である場合、データ収集は必ずしも十分ではないというのが現実です。そこでは、データの収集自体が結果を歪める可能性があります。これは、粒子物理学で観測の事実自体を方程式から削除できないのと同じです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.