ダミー変数トラップの問題


10

すべての独立変数(約400)がダミー変数である大規模なOLS回帰を実行しています。すべてが含まれている場合、完全な多重共線性(ダミー変数トラップ)があるため、回帰を実行する前に変数の1つを省略する必要があります。

私の最初の質問は、どの変数を省略すべきかということです。少数にしか存在しない変数よりも、多くの観測に存在する変数を省略する方がよいことを読んだことがあります(たとえば、ほとんどすべての観測が「男性」または「女性」で、少数のみが「不明」の場合"、"男性 "または"女性 "のいずれかを省略します)。これは正当化されますか?

変数を省略して回帰を実行した後、すべての独立変数の全体的な平均が0であることを知っているので、省略した変数の係数値を推定できます。この事実を使用して、すべての変数の係数値をシフトします。含まれる変数、および省略された変数の推定値を取得します。次の質問は、省略された変数の係数値の標準誤差を推定するために使用できる同様の手法があるかどうかです。元々省略されていた変数の係数の標準誤差推定値を取得するには、別の変数を省略して(そして最初の回帰で省略した変数を含めて)回帰を再実行する必要があるためです。

最後に、(ゼロ付近に再センタリングした後)取得する係数推定値が、省略されている変数に応じてわずかに異なることに気づきました。理論的には、いくつかの回帰を実行し、それぞれ異なる変数を省略してから、すべての回帰からの係数推定値を平均する方が良いでしょうか?


「私のすべての独立変数の全体的な平均は0であるべき」という意味と、これをどのようにして知っているのかを明確にしていただけませんか。
ワンストップ2011年

基本的に、平均(すべての変数の平均)に対してすべての変数を評価します。回帰からの係数は、省略された変数に関連しています。したがって、各係数値からすべての係数の平均(省略された変数の係数0を含む)を差し引くと、調整された値は平均0になり、各係数値は平均からの距離と見なすことができます。
James Davison

回答:


8

どの変数を省略しても、「同じ」推定値を取得する必要があります。係数が異なっていてもよいが、特定の量または推定の期待は、すべてのモデルで同じでなければなりません。

単純なケースでは、男性は、女性は0とします。次に、モデルがあります: ここで、女性のします。その後、 女性 のの期待値はあり、ます。男性の場合、E [ y ix i ]xi=1zi=1 E [ y iz i ]

E[y|バツ]=バツE[y|バツ=1]+1バツE[y|バツ=0]=E[y|バツ=0]+[E[y|バツ=1]E[y|バツ=0]]バツ=β0+β1バツ
z=1
E[y|z]=zE[y|z=1]+1zE[y|z=0]=E[y|z=0]+[E[y|z=1]E[y|z=0]]z=γ0+γ1z
yβ0γ0+γ1β0+β1および。γ0

これらの結果は、2つのモデルの係数がどのように関連しているかを示しています。たとえば、です。データを使用した同様の演習では、得られる「異なる」係数は、単に合計と互いの差であることが示されます。β1=γ1


4

ジェームズ、まずなぜ回帰分析ではなく分散分析なのか(この種の分析には多くの専門家があなたを助けることができます)?ANOVA の長所は、ダミー変数(一意のカテゴリ、またはプロファイル)の組み合わせによって記述されるさまざまなグループの平均の違いだけに関心があるということです。まあ、含める各カテゴリ変数の影響を調査する場合は、回帰も実行できます。

100111

最大のプロファイルのカテゴリを省略することは、私にとっては良いように思えますが、それほど重要ではありませんが、少なくともそれは空ではないと思います。変数を特定の方法でコーディングするため、含まれるダミー変数(両方とも男性、女性)の統計的有意性の合同は、省略された変数の有意性を意味します。

結果がわずかに異なる場合がありますが、これに影響するのは間違ったコーディングですか?


私の文章がはっきりしない場合は許してください、それはリトアニアの真夜中です。
Dmitrij Celov

なぜ(0,0)ではなく(-1、-1)となるのですか?
siamii 2013年

1

分析の正確な性質を知らずに、効果コーディングを検討しましたか?このように、各変数は、特定の省略されたカテゴリではなく、その特性/属性と全体の総平均の効果を表します。私は、カテゴリ/属性の1つ(-1を割り当てる)の係数がまだ不足していると思います。それでも、このように多くのダミーがあるので、総平均は特定の省略されたカテゴリよりも意味のある比較グループになると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.