グループ比較のための交互作用項と個別の回帰のある共同モデル


13

以前の質問とディスカッションから貴重なフィードバックを収集した後、次の質問を考え出しました。たとえば、男性と女性の2つのグループ間の効果の違いを検出することを目的としているとします。それには2つの方法があります。

  1. 2つのグループに対して2つの別々の回帰を実行し、Waldテストを使用して帰無仮説:を拒否します(ただし、は男性の回帰における1つのIV の係数、は同じ係数です)女性の後退におけるIV。b 1b 2 = 0 b 1 b 2H0b1b2=0b1b2

  2. 2つのグループを一緒にプールし、性別ダミーと交互作用項(IV * genderdummy)を含めることにより、共同モデルを実行します。次に、グループ効果の検出は、相互作用の符号と有意性のt検定に基づいて行われます。

ケース(1)でHoが拒否された場合、つまりグループの違いは有意であるが、ケース(2)での交互作用項の係数は統計的に重要ではない、つまりグループの違いが重要でない場合はどうでしょう。または逆の場合、Hoはケース(1)で拒否されず、交互作用項はケース(2)で重要になります。私は何度もこの結果に終わっており、どの結果がより信頼できるのか、そしてこの矛盾の背後にある理由は何なのかと思っていました。

どうもありがとう!


1
手順の違いは、両方のグループで同じ差異を想定していることです。個別の分析では、異なる分散を想定しています。
確率論的

どうもありがとうございました!異なるモデルを比較する際の分散の問題について説明している参考資料をご存知ですか?
Bill718 2012

回答:


7

最初のモデルは、モデル内の他のすべての共変量と性別を完全に相互作用させます。基本的に、各共変量の効果(b2、b3 ... bn)。2番目のモデルでは、性別の影響はIVとのみ相互作用します。したがって、IVと性別だけではなく、より多くの共変量があるとすると、これは多少異なる結果をもたらす可能性があります。

2つの共変量しかない場合は、Waldテストと尤度比テストの最大化の違いが異なる回答につながる文書化された状況があります(ウィキペディアの詳細を参照)。

私自身の経験では、理論に導かれるようにしています。性別がIVのみと相互作用し、他の共変量とは相互作用しないことを示唆する支配的な理論がある場合、部分的な相互作用を使用します。


ありがとう!はい、実際にはIVが1つだけではなく、さまざまな共変量があります。簡単にするために、質問ではIVを1つだけ述べました。問題は、性別と特定の共変量の間の相互作用をサポートできる強力な理論がないことです。これは探索的分析であるため、多くの相互作用とモデルフィットを実験する必要があります。最初のモデルには30の予測子が含まれています...
Bill718

@ Bill718また、個別のモデルではインターセプトが異なりますが、単一のモデルではインターセプトが異なりますが、追加のIVとして性別だけを指定する(相互作用としてだけではない)場合を除きます。
Robert Kubrick

5

特定の仮説を検定するために2つの異なる手順が使用されるときはいつでも、異なるp値があります。1つは重要で、もう1つは重要ではないということは、0.05レベルで白黒の決定を下すことだけではありません。1つのテストで0.03のp値が得られ、もう1つのテストで0.07となる場合、結果は矛盾しているとは言えません。重要性についてそれだけ厳格に考える場合、ボードラインの重要性が当てはまる場合に、(i)または(ii)のいずれかの状況が発生するのは簡単です。

前の質問への回答で述べたように、相互作用を探すための私の好みは、1つの複合回帰を行うことです。


はい、確かに、少なくとも私の場合は、複合回帰の方がパフォーマンスが良いように思われます。これは非常に柔軟な方法であり、誰かが異なる相互作用やモデルフィットを試すことができるためです。「統計的」な好奇心によって、どういうわけか異なる結果の背後にある理由は何かを見つけるために。p値については、a = 0.5%レベル以下でのみ有意性を受け入れる人もいると聞いています。私はより柔軟で、a = 1%レベルを使用していますが、p値が完全に異なる場合に大きな頭痛の種になります。
Bill718 2012

たとえば、順序付きロジットモデットを使用すると1つのIVが非常に重要であるのに対し、OLSを適用すると同じIVは重要ではなくなるという研究を見てきました。したがって、その場合、結果の説明は少し難しいかもしれません。あなたのコメントとフィードバックをどうもありがとう!
Bill718 2012

+1、約ポイントが優れています。0.070.03
-モニカの

2

2番目のケースでは、標準ソフトウェアはt学生のp値を持つt統計を提案しますが、1番目のケースでは、Waldテストに2つのオプションがある場合があります。エラーの正規性の仮定の下で、Wald統計は正確なフィッシャー統計に従います(これはエラーの正規性を仮定するため、t統計と同等です)。漸近正規性の下では、Wald統計はChi2分布に従います(これは、漸近正規分布に従うt統計に類似しています)どのような分布を想定していますか?これに応じて、p値は異なる結果をもたらすリスクがあります。

教科書では、双方向の単一テスト(1つのパラメーター)の両方で、t学生とフィッシャー統計が同等であることがわかります。

サンプルが大きくない場合、chi2とt-statのp値を比較すると、確かに異なる結果が得られます。その場合、漸近分布を仮定することは合理的ではありません。サンプルがかなり小さい場合、正規性がより妥当であると想定すると、これはそれぞれケース2と1のt-statとフィッシャーのp値を意味します。


実際、私はサイズが等しくない2つのサンプルを持っています。最初のサンプルには3000の観測値がありますが、2番目のサンプルは比較的小さく、500の観測値です。また、ソフトウェアはWald統計を計算するときにカイ2乗を報告します。これが食い違いの原因だと思われます。ただし、両方のサンプルは通常、特に大きなサンプルの場合は分散されます。どうもありがとう!
Bill718

1
騙して申し訳ありませんが、サブサンプルサイズが等しくなくても問題ありません。さらに、あなたのものは私にとって大きなサンプルのように見えます。したがって、どちらの手順でも同様の結果が得られるはずです。@probabilityislogicが良い点を作っていることに気づきました。1つのプールされたサンプルを使用することは、等しい残差分散を意味するため、それが不均一性の原因になる可能性があります。個別の回帰手順をどのように実装しているかはわかりませんが、自分で統計を計算していると、間違いを犯しやすくなります。これにより、プールされた回帰が安全で簡単なアプローチになります。
JDav 2012

1
グループ全体の不均一な分散問題(ヘテロスケダシティ)を解決するには、ホワイト(別名Newey-west、Sandwich、Robustの場合はstataを使用)分散推定器を試してください。このアプローチは、未知のタイプの不均一性を修正します。
JDav 2012

ああ、わかりました。実際、サンプルの観測は国のさまざまな地域からのものであるため、異質性の問題が存在している可能性は非常に高いです。
Bill718 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.