この質問は、3つの関連モデルの比較を示唆しています。比較を明確にするために、従属変数とし、YX∈{1,2,3}現在のコミュニティコードとし、およびX 2をそれぞれコミュニティ1および2のインジケーターとして定義します。(これは、X 1 = 1コミュニティ1およびX 1 = 0 ;社会2および3のX 2 = 1コミュニティ2およびX 2 = 0コミュニティ1および3の場合)X1X2X1=1X1=0X2=1X2=0
現在の分析は次のいずれかになります。
Y=α+βX+ε(first model)
または
Y=α+β1X1+β2X2+ε(second model).
どちらの場合も、は、期待値がゼロの同一に分布した独立確率変数のセットを表します。2番目のモデルはおそらく意図されたモデルですが、最初のモデルは、質問で説明されているコーディングに適合するモデルです。ε
OLS回帰の出力は、エラーの一般的な分散の推定値と合わせて、パラメーターのセット(記号に「帽子」で示されます)です。最初のモデルで比較する一つのt検定があるβを0。第2のモデルである2比較するいずれかt検定^ β 1を0と比較するために別の^ β 2を0。質問は1つのt検定のみを報告するので、最初のモデルを調べることから始めましょう。β^0β1^0β2^0
結論づけたβが大きく異なる0、我々は推定することができますY = Eを [ α + β X + ε ] = α + β Xの任意のコミュニティのために:β^0YE[α+βX+ε]α+βX
コミュニティ1の場合、で、推定値はα + βです。X=1α+β
コミュニティ2について、と推定値が等しいα + 2 βを。そしてX=2α+2β
コミュニティの3のため、と推定値が等しいα + 3 βを。 X=3α+3β
特に、最初のモデルでは、コミュニティ効果を算術的に進行させます。コミュニティのコーディングがコミュニティ間の差別化の単なる恣意的な方法として意図されている場合、この組み込みの制限は同様に恣意的であり、おそらく間違っています。
2番目のモデルの予測の同じ詳細分析を実行することは有益です。
コミュニティ1、用及びX 2 = 0、の予測値Yが等しいα + β 1。具体的にはX1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
コミュニティ2、用及びX 2 = 1の予測値Yが等しいα + β 2。具体的にはX1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
コミュニティ3の場合、であり、Yの予測値はαに等しくなります。具体的にはX1=X2=0Yα
Y(community 3)=α+ε.
Yβ1=0β2=0β2−β1 = β 2 - β 1。(α+β2)−(α+β1)β2−β1
これで、3つの別々の回帰の影響を評価できます。彼らは
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
第2のモデルにこれを比較すると、我々はそれを参照に同意する必要がありα + β 1、α 2に同意する必要がありα + β 2、及びα 3は、に同意する必要がありα。したがって、パラメータの適合の柔軟性という点では、どちらのモデルも同等に優れています。ただし、このモデルの誤差項に関する仮定はより弱いものです。全てε 1(IID)独立同一分布でなければなりません。すべてε 2は IIDでなければならず、すべてのε 3は、IIDでなければなりませんα1α+β1α2α+β2α3αε1ε2ε3しかし、個別の回帰間の統計的関係については何も想定されていません。 したがって、個別の回帰により、柔軟性がさらに向上します。
この追加の柔軟性は、パラメーターのt検定結果が2番目と3番目のモデルで異なる可能性が高いことを意味します。(ただし、パラメーターの推定値が異なることはありません。)
別の回帰が必要かどうかを確認するには、次の手順を実行します。
2番目のモデルを取り付けます。コミュニティに対して残差をプロットします。たとえば、横並びの箱ひげ図のセットまたはヒストグラムのトリオとして、または3つの確率プロットとしても。異なる分布の形、特に明らかに異なる分散の形跡を探します。その証拠がない場合、2番目のモデルは問題ありません。存在する場合、個別の回帰が保証されます。
モデルが多変量である場合、つまり、モデルに他の因子が含まれている場合、同様の分析が可能ですが、結論は似ていますが、より複雑です。一般に、個別の回帰を実行することは、コミュニティ変数とのすべての可能な双方向相互作用(最初のモデルではなく、2番目のモデルのようにコード化)を含め、コミュニティごとに異なるエラー分布を可能にすることと同じです。