相互作用の影響を識別するベストプラクティスは何ですか?


35

モデル内の変数の可能な組み合わせを文字通りテストする(x1:x2またはx1*x2 ... xn-1 * xn)以外。独立変数(できれば)の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか?

相互作用を特定しようとする際のベストプラクティスは何ですか?使用できる、または使用できるグラフィカルな手法はありますか?


データについて少し教えていただけますか?サイズ(私の答えを参照)と自然(ギャビンの答えを参照)
ロビンギラード

@ロビン:ベッドから出る時間を彼に与えてください、ブランドンはトロントにいます;-)
モニカの

1
@Robin、もっと一般的にしたいと思います。あなたの応答で、データのサイズまたは性質についての仮定を必要とする方法を提供している場合、それを述べてください。私が抱えている問題は、多くの異なるモデリングタスクにまたがっており、すべてが異なるデータを使用しています。したがって、この場合、相互作用の影響を特定するための一般的な推奨事項を探しています。
ブランドンバーテルセン

回答:


20

Cox and Wermuth(1996)またはCox(1984)は、相互作用を検出するいくつかの方法を議論しました。問題は通常、相互作用項の一般性です。基本的に、(a)すべての2次相互作用項を一度に1つずつ適合(およびテスト)し、(b)対応するp値(つまり、関数としての項項)をプロットします。次に、特定の数の相互作用項を保持する必要があるかどうかを確認します。すべての相互作用項がnullであるという仮定の下では、p値の分布は均一である必要があります。原点を通る線)。1p

さて、として@Gavin多くの(すべてではない)の相互作用が過剰適合につながる可能性フィット、と述べたが、それは(いくつかの高次の相互作用項は、多くの場合、全く意味を持たない)ある意味でも無用です。ただし、これは相互作用の検出ではなく解釈に関係しており、相互作用の解釈でコックスによって優れたレビューがすでに提供されています:レビューThe Annals of Applied Statistics 2007、1(2)、371–385)-it上記に引用された参考文献を含む。見る価値のある他の研究ラインは、遺伝的研究における上位性効果の研究、特にグラフィカルモデルに基づく方法(例:遺伝子関連ネットワークにおける統計的相互作用因子を識別するための効率的な方法)です。

参照資料

  • コックス、DRおよびワームス、N(1996)。多変量依存関係:モデル、分析、解釈。チャップマンとホール/ CRC。
  • コックス、DR(1984)。相互作用国際統計レビュー、52、1–31。

16

私のベストプラクティスは、モデルをあてはめるに、手渡す問題について考えることです。あなたが研究している現象を考えると、もっともらしいモデルは何ですか?変数と相互作用の可能な組み合わせをすべて当てはめることは、データdataのように聞こえます。


5
発言のように聞こえるか、答えは「考える」ですか?
ロビンジラール

2
@Robin-後者。統計モデリングは非常に難しいと感じています(私は正式な統計トレーニングがほとんどない生態学者であり、私が学んだことのほとんどは独学です)、最初に問題について考え、もっともらしいものを判断すると、はるかに簡単ですそのモデルを構築し、モデルの診断を行い、科学的に意味のある相互作用を試みます。
モニカの復職-G.シンプソン

2
@Brandon:相互作用が欠落している場合、共変量の値を条件とする残差にパターンがあります。共変量に対して残差をプロットすると、相互作用が適切な場合の判断に役立ちます。
モニカの復職-G.シンプソン

2
@Brandon:これは、標準モデルの診断および探索プロットのスキルです。相互作用に関与していると思われる共変量の値に条件付けられた(ggplot2または格子法で)相互作用の候補と思われる共変量の1つに対して残差をプロットします。パターンがあるかどうかを確認するために、各パネルに黄土をより滑らかに貼り付けます。共変量がどのタイプの変数かによって異なります。
モニカの復職-G.シンプソン

2
データdr?データを十分長く拷問すると、告白します
好奇心が

16

ツリーモデルの近似(Rの使用など)は、説明変数間の複雑な相互作用を識別するのに役立ちます。こちらの 30ページの例をご覧ください。


非常にシンプルで非常に便利です。クローリーのテキストへの参照もありがとう!
ブランドンバーテルセン

注意してください-たとえば線形モデルでは、これらの種類の相互作用を簡単に適合させることはできません。相互作用は、ツリーの1つのブランチ(またはその一部)でのみ発生します。これらの種類のツールを実世界のデータで使用するには、大量のデータが必要です。
復帰モニカ-G.シンプソン

3
@Gavinが言ったように、潜在的な落とし穴の1つは、決定木が大きなサンプルサイズを必要とし、非常に不安定であることです(これが、バギングとランダムフォレストが実行可能な代替として提案された理由の1つです)。もう1つの問題は、2次または高次の相互作用効果を求めるかどうかが明確でないことです。前者の場合、CARTは解決策ではありません。いずれにせよ、あらゆる種類の研究(観測的または統制的)における6つの変数間の相互作用の解釈は非常に疑わしいと思います。
chl

7

Gavinに完全に同意するため、この応答の前書きを行います。また、あらゆるタイプのモデルの適合に関心がある場合は、調査中の現象を反映する必要があります。問題は、すべての効果を特定するロジック(およびGavinがデータdrと言うときに言及するもの)にあることは、無限数の相互作用、変数の2次項、またはデータへの変換を当てはめることができることです。必然的に、データのいくつかのバリエーションに対して「重要な」効果を見つけます。

chlが述べているように、これらの高次の相互作用効果には実際には解釈がなく、低次の相互作用でさえ意味をなさないことがよくあります。因果モデルの開発に関心がある場合は、モデルを近似する前に、従属変数Aに関係があると思われる用語のみを含める必要があります。

モデルの予測力を高めることができると思われる場合は、モデルの過剰適合を防ぐために、モデル選択手法に関するリソースを調べる必要があります。


7

n

n

この分散の割合が重要かどうかを知りたい場合は、モデリングを行う必要があります(大まかに、分散と比較するためにモデルの自由度の数を知る必要があります)。

変数は離散または連続ですか?制限されているかどうか(つまり、最大値がわからない)


Sobolインデックスへの指示に感謝します。繰り返しますが、ここでは具体的な回答ではなく一般的な回答を探していることを明記したいと思います。特定のデータセットについて質問するのではなく、いくつかの異なるセットで発生している問題を説明しようとしています。
ブランドンバーテルセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.