因果関係の推論に相互検証を使用できますか?


37

すべてのコンテキストで、クロスバリデーションに精通しているのは、予測精度を高めるという目的でのみ使用されます。相互検証のロジックを拡張して、変数間の公平な関係を推定できますか?

一方で、このリチャード・バークの論文は「最終」回帰モデルにおけるパラメータ選択のためのサンプルアウトホールドの使用を示し(かつ段階的パラメータの選択は良いアイデアではない理由を示している)、私はまだどのように正確性を保証が表示されませんXがYに与える影響の偏りのない推定は、対象の論理と事前知識に基づいてモデルを選択すること以上です。

因果関係の推測を支援するためにホールドアウトサンプルを使用した例、または私の理解に役立つ一般的なエッセイを引用してください。また、クロスバリデーションの概念が素朴であることを疑うことはありません。控えめなサンプルの使用は因果推論の影響を受けやすいと思われますが、これを行う作業またはそれらがどのように行うかについては知りません。

バーク紙の引用:

モデル選択後の統計的推論 :Richard Berk、Lawrence Brown、Linda Zhao Journal of Quantitative Criminology、Vol。26、No。2(2010年6月1日)、pp。217-236。

PDF版はこちら

chlによる小規模サンプル研究の探索的データ分析に関するこの質問は、この質問を促しました。

回答:


19

相互検証について知っていることを確認することは有用だと思います。CVに関する統計結果は、効率と一貫性の2つのクラスに分類されます。

効率は、予測モデルを構築する際に通常懸念されるものです。その考え方は、CVを使用して、損失関数に関する漸近的保証を備えたモデルを決定することです。ここで最も有名な結果は、Stone 1977によるものであり、LOO CVがAICと漸近的に同等であることを示しています。しかし、ブレットは、原因メカニズムについては知らない予測モデルを見つけることができる良い例を提供します。

一貫性は、目標が「真の」モデルを見つけることである場合に私たちが懸念していることです。アイデアは、CVを使用して、モデル空間に真のモデルが含まれていることを考えると、十分な大きさのサンプルで発見できるという漸近的保証付きのモデルを決定することです。ここで最も有名な結果は、線形モデルに関するShao 1993によるものですが、彼のアブストラクトで述べているように、彼の「衝撃的な発見」はLOOの結果の反対です。線形モデルの場合、n ∞であれば、LKO CVを使用して一貫性を実現できます。線形mdoelsを超えると、統計結果を導き出すのが難しくなります。 k/n1n

:しかし、あなたは真のモデルに一貫性の判断基準とあなたの履歴書の手続きのリードを満たすことができると仮定。因果メカニズムについて私たちは何を学びましたか?YXの間には明確な相関関係があることがわかりますが、これは因果関係の主張についてはあまり言及していません。従来の観点からは、因果関係の主張を行うために、制御/操作のメカニズムを備えた実験計画を取り入れる必要があります。Judea Pearlのフレームワークの観点から、因果的仮定を構造モデルに焼き付け、反事実の確率ベースの計算を使用していくつかの主張を導き出すことができますが、特定の特性を満たす必要がありますY=βバツ+eYバツ

おそらく、CVは真のモデルを特定することで因果推論を支援できると言うことができます(一貫性の基準を満たすことができれば!)。しかし、それはあなたをこれまでのところに導きます。CV自体は、因果推論のどちらのフレームワークでも作業を行っていません。

交差検証で私たちが言えることにさらに興味があるなら、広く引用された1993年の論文よりもShao 1997をお勧めします。

主要な結果をざっと見ることができますが、以下の議論を読むのは興味深いです。Rao&TibshiraniによるコメントとStoneによるコメントは特に洞察力があると思いました。しかし、彼らは一貫性について議論しているが、因果関係については何の主張もしていないことに注意してください。


特にユダヤパール応答(。私はそれらの短い応答エッセイのすべての素晴らしい情報に基づいて本を購入する必要があります)、すべての参照をありがとう
アンディ・W

1
downvoteへのコメントはいつでも歓迎します!
chl

18

これは本当に興味深い質問であり、特定の引用は提供していません。ただし、一般的に言って、いいえ、それ自体では、交差検証は因果関係に関する洞察を提供しません。計画された実験がない場合、因果関係の問題は常に不確実です。あなたが示唆するように、交差検証は予測精度を改善することができます。これだけでは、因果関係については何も言いません。

設計された実験がない場合、因果推論には、関連するすべての予測変数を含むモデルが必要になります。これは、観測研究ではめったに保証できないものです。さらに、たとえば単純なラグ変数(または予測しようとしていた結果と高度に相関するもの)は、複数のサンプルで検証できる優れたモデルと1つを生成します。しかし、それは因果関係を推測できるという意味ではありません。相互検証により、予測の再現性が保証されます。因果関係は設計と論理の問題です。

編集:これは説明するための例です。都市がゴミの除去に費やした金額に基づいて都市の人口を予測する予測精度の高いモデルを構築できました。クロスバリデーションを使用してそのモデルの精度をテストしたり、他の方法で予測の精度を改善したり、より安定したパラメーターを取得したりできます。さて、このモデルは予測には非常に効果的ですが、因果論理は間違っています。因果の方向が逆になっています。公共事業部の人々が何を主張したとしても、ゴミの除去のための予算を増やすことは、都市の人口を増やすための良い戦略ではありません(因果関係の解釈)。

モデルの精度と再現性の問題は、観察する関係について因果推論を行う能力とは別のものです。クロスバリデーションは、前者では役立ちますが、後者では役立ちません。さて、カジュアルな関係を指定するという観点から「正しい」モデルを推定している場合(たとえば、来年の予想される人口に基づいてゴミ除去予算をどのように決定すべきか)、クロスバリデーションは、その効果の推定値に対する信頼。ただし、交差検証は、因果関係に関して「正しい」モデルを選択するのに役立ちません。繰り返しますが、ここでは、研究の設計、主題の専門知識、理論、および論理に依存する必要があります。


1
したがって、効果の推定値の再現性が役立つとは思わないでしょうか?あなたは因果関係の証拠が何であるかというあなたの概念に一人ではありませんが、私はそれがかなり狭いと思います。宇宙のすべての証拠がなければ、たとえ実験を行っても、因果関係を永久に証明することはできません。それ故、私の意見では、目標は、私たちが推定するどのような関係も、私たちが知っている情報を与えられた真実に近いという証拠を与えることです。トレーニングセットからホールドアウトサンプルまでの予測の再現性は、行われた推論の有用なチェックになると思いませんか?
アンディW

あなたのコメントにも感謝します。また、推論が論理と研究デザインに大きく依存していることに完全に同意します。
アンディW

1
アンディ、私はあなたのコメントに対処するために私の投稿を編集しました。また、私は因果推論が計画された実験の文脈の外で行われないことを示唆するつもりはありません。それにもかかわらず、観察研究ではより困難で不確実性が高く、その問題を解決するための構築手順のモデル化を検討すべきではありません。むしろ、因果関係を理解し​​ようとしている問題をよりよく理解するよう努めるべきです。
ブレット

疑いに直面して正しい推論を行うためには、正確さと再現性の問題が不可欠であることを除いて、私はあなたの言うことすべてに同意します。専門家に論理モデルを構築しているという疑念の恩恵を与えることができます。私が懸念しているのは、多くの観察コンテキストでの調査結果の再現性です。私は、再現性が実験設定で最もよく対処される交絡の影響を必ずしも説明しないことに同意しますが。
アンディW

(+1)おMyび申し上げます。あなたのとてもいい答えに賛成するのを忘れたようです。すでに有益なコメントを投票しました。
chl

13

あなたの質問はより一般的に予測モデルのさまざまな種類の検証に対応しているようです:交差検証は内部妥当性、または少なくとも最初のモデリング段階と多少関係がありますが、より広い母集団に因果リンクを描くことはより関連しています外的妥当性。それによって(そして@Brettの素晴らしい発言に続く更新として)、私たちは通常、仮想的な概念モデルを想定して、作業サンプルでモデルを構築することを意味します(つまり、予測子と関心のある結果との関係を指定します)そして、最小の分類エラー率または最小の予測エラーで信頼できる推定値を取得しようとします。うまくいけば、モデルのパフォーマンスが向上するほど、見えないデータの結果を予測できるようになります。それでも、CVは仮定された因果リンクの「妥当性」または妥当性について何も語りません。ある程度の調停や調停の効果が無視されているか、事前に知られていないモデルでは、確かにまともな結果を達成できます。

私のポイントは、あなたがモデルを検証するために使用する方法(そしてホールドアウト方法は確かに最良のものではありませんが、それでも段階的モデル構築から生じる問題を軽減するために疫学研究で広く使用されています)、あなたは同じサンプルで作業するということです(これはより大きな人口の代表であると仮定します)。それどころか、この方法で推論された結果と因果リンクを新しいサンプルまたはもっともらしい関係のある集団に一般化することは、通常、複製研究によって行われます。これにより、モデルの予測能力を、より広い範囲の個々の変動を特徴とし、関心のある他の潜在的な要因を示す可能性のある「スーパーポピュレーション」で安全にテストできます。

モデルは作業サンプルの有効な予測を提供する場合があり、考えられるかもしれないすべての潜在的な交絡因子が含まれます。ただし、初期モデルの構築時に特定されなかった他の要因が介在する因果経路に現れるため、新しいデータではうまく機能しない可能性があります。これは、予測子のいくつかとそこから推測される因果関係が、たとえば患者が募集された特定の試験センターに依存している場合に発生する可能性があります。

遺伝子疫学では、DNAマーカーと観察された表現型との因果関係を過度に単純化した見方で複雑な疾患をモデル化しようとしているだけで、多くのゲノムワイド関連研究は複製できませんが、遺伝子疾患(多面発現性)、遺伝子環境、および集団下部構造がすべて作用しますが、例を参照してください。ゲノム全体の関連シグナルの検証、増強、および改良(Ioannidis et al。、Nature Reviews Genetics、2009 10)。そのため、一連の遺伝的マーカー(非常に小さくて希薄な効果サイズ)と観測された表現型の多変量パターン(例えば、白/灰色の物質の量またはfMRI、神経心理学的評価への応答、または人格目録で観察される脳内の局所的な活動)、それでも独立したサンプルでは期待どおりに機能しません。

このトピックに関する一般的な参照については、EW Steyerberg(Springer、2009)の第17章および臨床予測モデルのパートIIIを推奨できます。Ioannidisの次の記事も気に入っています。

ヨアニディス、JPA、公表された研究結果のほとんどが間違っているのはなぜですか?PLoS Med。2005 2(8):e124


1
@chl:内部対外部の有効性に関する最初の段落のステートメントを説明できますか?私がよく知っている伝統では、内部有効性とは、特定のサンプル内の変数間の因果関係を主張する能力を指します。外部妥当性とは、サンプルから他の人、場所、および時間に一般化する能力に関するものです。伝統的に、クロスバリデーションは後者についてであり、したがって外部妥当性についての上記の定義によりますが、内部妥当性についてであると述べています。私はあなたの声明を誤解しましたか?
ブレット

1
@Brett私は、CVを過剰適合を回避するため、または作業サンプルの予測精度の尺度を提供するための統計的手法と考えていました(したがって、必ずしも内部妥当性を示す専用ツールとしてではありません)。私はあまり明確ではありませんでした、ありがとう、またはそれを指しています。私はこれが手元のサンプルを一般化するために使用されることに同意しますが、そこでは因果推論とは関係ないと思います(CVは作業サンプルでモデル化された因果リンクについて何も証明しません)。外部の妥当性についてのあなたの見解を共有しますが、それを実証するために他のサンプルが必要ですよね?
chl

1
その最初の段落を明確にするかもしれません。あなたは、CVが内部妥当性検証を行わないと言っていると思います。それは他のプロセスの問題です。しかし、他の理由で何らかの内部有効性が得られた場合、それが何であれ、CVは人、場所、時間全体でその効果をより正確に推定するのに役立ちます。つまり、外部有効性を改善します。確立された因果関係を一般化するためだけに、変数間の関係(内部妥当性の質問自体)についてCVが因果的主張をするのを助ける方法はまだ考えられません。
ブレット

1
@Brettこの質問に対するあなたのコメントは非常に適切であり、いくつかの問題を非常にうまくまとめていると思います。この時点で内部と外部の妥当性の間の混乱を助けることはできないと思いますが、chlの遺伝疫学の例は実際には外部の妥当性ではなく内部の妥当性の問題です(データセットの不均一性(または母集団の下位構造の間)を除きますが、そのIMOはこれらの例では、内部妥当性よりも懸念が少ない)。
アンディW

2
内部有効性と外部有効性の間のBrettの定義は正確ですが、私たちの目的にとっては、異なる用語で定義するのに役立ちます。外部妥当性は、サンプルと、そのサンプルが他の母集団とどのように関係するかのみに関係します。内部妥当性は、推定される効果とそれらの効果を推定するために使用される構成要素に関するさまざまな側面に関係しています。
アンディW

12

これは良い質問ですが、答えは間違いなくノーです。交差検証は因果推論を改善しません。症状と病気のマッピングがある場合、クロス検証は、モデルを生データセット全体に単純に適合させた場合よりも、モデルがそれらの共同分布によく一致することを保証するのに役立ちますが、それについては何もわかりません因果関係の方向性。

交差検定は非常に重要であり、勉強する価値がありますが、データセットのノイズに過剰適合するのを防ぐことしかできません。もっと理解したいなら、ESLの第7章をお勧めしますhttp : //www-stat.stanford.edu/~hastie/Papers/ESLII.pdf


参照していただきありがとうございます。モデルの選択を気にしないと言って、トレーニングデータセットの効果推定値をホールドアウトデータセットに相互検証すると便利ですか?
アンディW

そうかもしれませんが、基本的にはその時点でブートストラップ(またはそのバリエーション)を行っていると思います。
ジョンマイルズホワイト

私は同意し、私はこの同じ種類のロジックを反映する定期的に行われる他の事柄があると思います(サブセット特異性テストまたは非等価な従属変数など)。もっと形式的な治療が存在することを想像したので、私は単に質問をした。
アンディW

downvoteへのコメントはいつでも歓迎します!
chl

この本は贈り続ける贈り物です!
ハイド14年

6

ここに回答として投稿された@Andyのフォローアップに応答するには ...

どちらの推定値が正しく、どちらの推定値が間違っていると言うことはできませんが、2つのモデル間の突撃確信と銃確信の推定の不一致は、どちらが文の長さに真の因果効果を持っているのか疑問に思いませんか?

パラメーター推定値の不一致は、どちらのパラメーター推定値も真の因果効果を表さないと考える理由になります。そのようなモデルが真の因果効果をもたらすことについて懐疑的である十分な理由がすでにあったにもかかわらず、私はそれに同意します。

私の 見解は次のとおりです。過剰適合データは偏ったパラメーター推定のソースであり、このバイアスが特定の因果効果の推定において他の偏りのソースを相殺すると信じる理由はありません。データを過剰適合させることなく。交差検定は過剰適合を防止するため、平均して、因果効果の推定値を改善する必要があります。

しかし、誰かが観測データからの因果効果の推定を信じるように私を説得しようとしている場合、彼らのモデリング戦略が持つ可能性が高いと思われる強い理由がない限り、彼らがデータをオーバーフィットしていないことを証明することは低優先順位ですオーバーフィット。

私が協力している社会科学アプリケーションでは、実質的な問題、測定の問題、感度のチェックにずっと関心があります。感度チェックとは、用語が追加または削除されるモデルの変動を推定すること、およびサブグループ間で関心の効果が異なることを可能にする相互作用を持つモデルを推定することを意味します。統計モデルのこれらの変更は、因果関係として解釈したいパラメーター推定にどの程度影響しますか?このパラメータ推定値の不一致は、モデルの仕様またはサブグループ全体で、あなたが伝えようとしている因果関係の観点から理解できるか、選択などによって引き起こされる効果を示唆していますか。

実際、これらの代替仕様を実行する前に。パラメーターの推定値がどのように変化するかを書き留めてください。興味のあるパラメータ推定値がサブグループまたは仕様間でそれほど変わらない場合は素晴らしいです-私の仕事の文脈では、それは交差検証よりも重要です。しかし、私の解釈に影響を与える他の実質的な問題はさらに重要です。


計量していただきありがとうございます!あなたの視点は確かに、私が決して自分自身で定式化したことのない因果モデルに交差検証の非常に直接的な動機付けをしました。IMOは、過剰適合のラベルを使用することで、自分自身を少し短く売ります。たとえば、初期の探索セットでは、初期スケールと対数スケールの独立変数を使用して、方程式間のモデルの適合を調べます。対数スケールでのモデルのほうが適切であると判断し、それをホールドアウトモデルで使用します。これは、通常...(どちらか一方の間で選択)、続きの上にフィット考えられない
アンディ・W

しかし、あなたの提案したパラダイムに収まります。ここに私のテイクの段落があります。
アンディW

5

私は皆の回答に感謝しますが、質問は私が意図していなかったものに成長し、主に正しい答えのない因果推論の一般概念に関するエッセイになりました。

私は最初、質問を原因推論のための相互検証の使用例について聴衆を精査することを意図しました。私はそのような方法が存在すると想定していました。テストのサンプルを使用し、効果の推定の再現性を評価するためにサンプルを使用するという概念は、私にとっては理にかなっているように思えたからです ジョンが指摘したように、私が提案していたことはブートストラップに似ていません、そしてそれはサブセット特異性テストまたは非等価従属変数などの結果を検証するために使用する他の方法に似ていると言うでしょう(ブートストラップはモデルのパラメトリックな仮定を緩和し、より一般的な方法でのテストは、さまざまな状況で結果が論理的であるかどうかのチェックとして使用されます)。これらの方法はいずれも、因果推論の証明の他の答えの基準を満たしていませんが、因果推論にはまだ有用だと思います。

相互検証を使用するという私の主張は、因果推論を支援するための内部有効性のチェックであるという点で、chlのコメントは正しいです。しかし、議論を促進するものは何もないので、今のところは内部と外部の有効性の区別を捨ててください。疫学におけるゲノムワイドな研究のchlの例私は、内部の妥当性が低く、強い推論が本質的に疑わしいという主な例を検討します。ゲノム関連研究は、実際に私が求めたものの例だと思います。交差検証を使用することで、遺伝子と疾患の推論が改善されると思いますか(すべてのマーカーを1つのモデルに投げ込み、p値を適宜調整するのではなく)。

以下に、質問で引用したBerkの記事に表のコピーを貼り付けました。これらの表は、同じモデルで段階的な選択基準と因果推論を使用する誤ったロジックを示すために示されたものですが、モデル選択基準を使用しないふりをして、トレーニングサンプルとホールドアウトサンプルの両方のパラメーターを決定しまし。これは非現実的な結果として私を打つことはありません。どちらの推定値が正しく、どちらの推定値が間違っていると言うことはできませんが、2つのモデル間の突撃確信と銃確信の推定の不一致は、どちらが文の長さに真の因果効果を持っているのか疑問に思いませんか?そのバリエーションが役に立たないことを知っていますか?モデルをテストするためのホールドアウトサンプルを使用しても何も失われない場合、なぜ相互検証を使用して因果推論を改善できないのでしょうか(または、ホールドアウトサンプルを使用して失われているものがありませんか?) 代替テキスト


1
これがなぜ投票されたのかについてのメモをいただければ幸いです。
アンディW

2
@Andyを2回目にして、投票の際にコメントを残すことをお勧めします。何が間違っているのかを知ることは常に役立ちます。特にこのケースでは、Andy WがCW拡張コメントを付けて戻ってきて、私の意見では、元の質問にさらにサポートを追加しました。ここで何かに投票する必要はありません!
chl

1
標準誤差/信頼区間は、すでにこの変動性の指標を与えていないのですか?テストセットの推定値は、トレーニングセットの標準信頼区間内に含まれています。因果関係には、小さな標準誤差と狭いCIが重要だと思っていたでしょう。
確率論的

はい@probabilityislogicあなたは正しいです。私がこの点を述べたのは、すでに利用可能なデータセットにCVを適用する状況ではなく、他の時点で収集されたデータセットに適用することを意味していると思います。ここでは、CVが因果関係の声明を強化するのに役立つかもしれないと思ったが、それが当てはまるかどうかはまだはっきりしていない。私はそれがモデル選択の点でほぼ間違いなく有用であることを見ただけで、いかなる方法でもモデルを検証しません(例えば、この新しいデータの私のモデルは非常にぴったりと適合します)。
アンディW


1

これは、CVと因果推論の関係を考える直感的な方法だと思います:(間違っている場合は修正してください)

私は常に、予測におけるモデルのパフォーマンスを評価する方法としてCVを考えています。ただし、因果推論では、OccamのRazor(節約)と同等のものに関心があるため、CVは役に立ちません。

ありがとう。


私が質問をした理由は、クロス検証を単にモデルの予測能力を評価する方法として考える必要がないからです。モデルの結果(およびそのために行われた推論)が、多くの潜在的な理由で人為的なものであることを心配することは珍しくありません。したがって、調査結果の堅牢性を調べたいと思い、クロス検証は結果の堅牢性を調べるのに役立つコンテキストになると考えました。
アンディW

誤解して申し訳ありません。
suncoolsu

謝罪の必要はありません。私は明らかにフリンジなものを提案しているので、クロスバリデーションはあなたが提案する文脈で常に使用されているようです。
アンディW

@suncoolsu、私が因果推論について考えているとき、私はOccamのRazor orparsimonyについて決して心配しません、私との関係を説明してもらえますか?
マイケルビショップ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.