モデル内の変数の可能な組み合わせを文字通りテストする(x1:x2
またはx1*x2 ... xn-1 * xn
)以外。独立変数(できれば)の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか?
相互作用を特定しようとする際のベストプラクティスは何ですか?使用できる、または使用できるグラフィカルな手法はありますか?
モデル内の変数の可能な組み合わせを文字通りテストする(x1:x2
またはx1*x2 ... xn-1 * xn
)以外。独立変数(できれば)の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか?
相互作用を特定しようとする際のベストプラクティスは何ですか?使用できる、または使用できるグラフィカルな手法はありますか?
回答:
Cox and Wermuth(1996)またはCox(1984)は、相互作用を検出するいくつかの方法を議論しました。問題は通常、相互作用項の一般性です。基本的に、(a)すべての2次相互作用項を一度に1つずつ適合(およびテスト)し、(b)対応するp値(つまり、関数としての項項)をプロットします。次に、特定の数の相互作用項を保持する必要があるかどうかを確認します。すべての相互作用項がnullであるという仮定の下では、p値の分布は均一である必要があります。原点を通る線)。
さて、として@Gavin多くの(すべてではない)の相互作用が過剰適合につながる可能性フィット、と述べたが、それは(いくつかの高次の相互作用項は、多くの場合、全く意味を持たない)ある意味でも無用です。ただし、これは相互作用の検出ではなく解釈に関係しており、相互作用の解釈でコックスによって優れたレビューがすでに提供されています:レビュー(The Annals of Applied Statistics 2007、1(2)、371–385)-it上記に引用された参考文献を含む。見る価値のある他の研究ラインは、遺伝的研究における上位性効果の研究、特にグラフィカルモデルに基づく方法(例:遺伝子関連ネットワークにおける統計的相互作用因子を識別するための効率的な方法)です。
私のベストプラクティスは、モデルをあてはめる前に、手渡す問題について考えることです。あなたが研究している現象を考えると、もっともらしいモデルは何ですか?変数と相互作用の可能な組み合わせをすべて当てはめることは、データdataのように聞こえます。
ツリーモデルの近似(Rの使用など)は、説明変数間の複雑な相互作用を識別するのに役立ちます。こちらの 30ページの例をご覧ください。
Gavinに完全に同意するため、この応答の前書きを行います。また、あらゆるタイプのモデルの適合に関心がある場合は、調査中の現象を反映する必要があります。問題は、すべての効果を特定するロジック(およびGavinがデータdrと言うときに言及するもの)にあることは、無限数の相互作用、変数の2次項、またはデータへの変換を当てはめることができることです。必然的に、データのいくつかのバリエーションに対して「重要な」効果を見つけます。
chlが述べているように、これらの高次の相互作用効果には実際には解釈がなく、低次の相互作用でさえ意味をなさないことがよくあります。因果モデルの開発に関心がある場合は、モデルを近似する前に、従属変数Aに関係があると思われる用語のみを含める必要があります。
モデルの予測力を高めることができると思われる場合は、モデルの過剰適合を防ぐために、モデル選択手法に関するリソースを調べる必要があります。
この分散の割合が重要かどうかを知りたい場合は、モデリングを行う必要があります(大まかに、分散と比較するためにモデルの自由度の数を知る必要があります)。
変数は離散または連続ですか?制限されているかどうか(つまり、最大値がわからない)