すべての独立変数(約400)がダミー変数である大規模なOLS回帰を実行しています。すべてが含まれている場合、完全な多重共線性(ダミー変数トラップ)があるため、回帰を実行する前に変数の1つを省略する必要があります。
私の最初の質問は、どの変数を省略すべきかということです。少数にしか存在しない変数よりも、多くの観測に存在する変数を省略する方がよいことを読んだことがあります(たとえば、ほとんどすべての観測が「男性」または「女性」で、少数のみが「不明」の場合"、"男性 "または"女性 "のいずれかを省略します)。これは正当化されますか?
変数を省略して回帰を実行した後、すべての独立変数の全体的な平均が0であることを知っているので、省略した変数の係数値を推定できます。この事実を使用して、すべての変数の係数値をシフトします。含まれる変数、および省略された変数の推定値を取得します。次の質問は、省略された変数の係数値の標準誤差を推定するために使用できる同様の手法があるかどうかです。元々省略されていた変数の係数の標準誤差推定値を取得するには、別の変数を省略して(そして最初の回帰で省略した変数を含めて)回帰を再実行する必要があるためです。
最後に、(ゼロ付近に再センタリングした後)取得する係数推定値が、省略されている変数に応じてわずかに異なることに気づきました。理論的には、いくつかの回帰を実行し、それぞれ異なる変数を省略してから、すべての回帰からの係数推定値を平均する方が良いでしょうか?