コミュニティごとに個別の回帰を実行する必要がありますか、それともコミュニティを単に集約モデルの制御変数にできますか?


11

DVとして連続資産インデックス変数を使用してOLSモデルを実行しています。私のデータは、地理的に近い3つの類似したコミュニティから集約されています。それにもかかわらず、コミュニティを制御変数として使用することが重要だと思いました。結局のところ、コミュニティは1%レベルで有意です(tスコアは-4.52)。コミュニティは、3つの異なるコミュニティのうちの1つに対して、1,2,3としてコード化された名義/カテゴリ変数です。

私の質問は、この重要度の高さは、集合体としてではなく、コミュニティに対して個別に回帰を行うべきであることを意味するかどうかです。それ以外の場合は、コミュニティを制御変数として使用して、本質的にそうしていますか?


ランダムな効果としてコミュニティで階層モデルを使用することは理にかなっていますか?コミュニティはあなたの主な関心事ではありませんか?階層モデルを使用すると、強みを共有できます。
ウェイン、

回答:


14

この質問は、3つの関連モデルの比較を示唆しています。比較を明確にするために、従属変数とし、YX{1,2,3}現在のコミュニティコードとし、およびX 2をそれぞれコミュニティ1および2のインジケーターとして定義します。(これは、X 1 = 1コミュニティ1およびX 1 = 0 ;社会2および3のX 2 = 1コミュニティ2およびX 2 = 0コミュニティ1および3の場合)X1X2X1=1X1=0X2=1X2=0

現在の分析は次のいずれかになります。

Y=α+βX+ε(first model)

または

Y=α+β1X1+β2X2+ε(second model).

どちらの場合も、は、期待値がゼロの同一に分布した独立確率変数のセットを表します。2番目のモデルはおそらく意図されたモデルですが、最初のモデルは、質問で説明されているコーディングに適合するモデルです。ε

OLS回帰の出力は、エラーの一般的な分散の推定値と合わせて、パラメーターのセット(記号に「帽子」で示されます)です。最初のモデルで比較する一つのt検定があるβ0。第2のモデルである2比較するいずれかt検定^ β 10と比較するために別の^ β 20。質問は1つのt検定のみを報告するので、最初のモデルを調べることから始めましょう。β^0β1^0β2^0

結論づけたβが大きく異なる0、我々は推定することができますY = Eを [ α + β X + ε ] = α + β Xの任意のコミュニティのために:β^0YE[α+βX+ε]α+βX

コミュニティ1の場合、で、推定値はα + βです。X=1α+β

コミュニティ2について、と推定値が等しいα + 2 βを。そしてX=2α+2β

コミュニティの3のため、と推定値が等しいα + 3 βをX=3α+3β

特に、最初のモデルでは、コミュニティ効果を算術的に進行させます。コミュニティのコーディングがコミュニティ間の差別化の単なる恣意的な方法として意図されている場合、この組み込みの制限は同様に恣意的であり、おそらく間違っています。

2番目のモデルの予測の同じ詳細分析を実行することは有益です。

コミュニティ1、用及びX 2 = 0、の予測値Yが等しいα + β 1。具体的にはX1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

コミュニティ2、用及びX 2 = 1の予測値Yが等しいα + β 2。具体的にはX1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

コミュニティ3の場合、であり、Yの予測値はαに等しくなります。具体的にはX1=X2=0Yα

Y(community 3)=α+ε.

Yβ1=0β2=0β2β1 = β 2 - β 1(α+β2)(α+β1)β2β1

これで、3つの別々の回帰の影響を評価できます。彼らは

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

第2のモデルにこれを比較すると、我々はそれを参照に同意する必要がありα + β 1α 2に同意する必要がありα + β 2、及びα 3は、に同意する必要がありα。したがって、パラメータの適合の柔軟性という点では、どちらのモデルも同等に優れています。ただし、このモデルの誤差項に関する仮定はより弱いものです。全てε 1(IID)独立同一分布でなければなりません。すべてε 2は IIDでなければならず、すべてのε 3は、IIDでなければなりませんα1α+β1α2α+β2α3αε1ε2ε3しかし、個別の回帰間の統計的関係については何も想定されていません。 したがって、個別の回帰により、柔軟性がさらに向上します。

  • 最も重要なの分布のものと異なることがε 2のものと異なることがε 3ε1ε2ε3

  • いくつかの状況では、と相関させることができるε J。これらのモデルはどれも明示的にこれを処理しませんが、3番目のモデル(個別の回帰)は少なくともそれによる悪影響を受けません。εiεj

この追加の柔軟性は、パラメーターのt検定結果が2番目と3番目のモデルで異なる可能性が高いことを意味します。(ただし、パラメーターの推定値が異なることはありません。)

別の回帰が必要かどうかを確認するには、次の手順を実行します。

2番目のモデルを取り付けます。コミュニティに対して残差をプロットします。たとえば、横並びの箱ひげ図のセットまたはヒストグラムのトリオとして、または3つの確率プロットとしても。異なる分布の形、特に明らかに異なる分散の形跡を探します。その証拠がない場合、2番目のモデルは問題ありません。存在する場合、個別の回帰が保証されます。

モデルが多変量である場合、つまり、モデルに他の因子が含まれている場合、同様の分析が可能ですが、結論は似ていますが、より複雑です。一般に、個別の回帰を実行することは、コミュニティ変数とのすべての可能な双方向相互作用(最初のモデルではなく、2番目のモデルのようにコード化)を含め、コミュニティごとに異なるエラー分布を可能にすることと同じです。


-3
  • モデル選択(IMHO)ここに画像の説明を入力してくださいをお勧めします。複雑なモデル(個別の勾配)の方がペナルティが大きいため、より簡潔で解釈しやすいモデルの方が「優れています」。

1
ここで何を推奨しているのか、またはこのテーブルとそれがどのように関連しているかは完全には明らかではありません。
Scortchi-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.