8000個のクラスターと400万個の観測値を含むデータセットがあります。残念ながら、統計データであるStataは、ロジスティック回帰にパネルデータ関数を使用すると、実行速度がかなり遅くなりxtlogit
ます。
ただし、非パネルlogit
機能を使用すると、結果がより早く表示されます。そのためlogit
、固定効果を説明する変更されたデータを使用することでメリットが得られる場合があります。
この手順は「Mundlak固定効果手順」(Mundlak、Y. 1978. Pooling of Time-Series and Cross-Section Data。Econometrica、46(1)、69-85。)
Antonakis、J.、Bendahan、S.、Jacquart、P。、およびLalive、R.(2010)の論文で、この手順の直感的な説明を見つけました。因果関係の主張について:レビューと推奨事項。リーダーシップクォータリー、21(6)。1086-1120。私は引用する:
固定効果の省略の問題を回避し、レベル2変数を含める方法の1つは、推定モデルにすべてのレベル1共変量のクラスター平均を含めることです(Mundlak、1978)。クラスター平均は、回帰変数として含めるか、レベル1の共変量から差し引く(クラスター平均の中心化)ことができます。クラスター平均はクラスター内で不変で(クラスター間で異なる)、固定効果が含まれているかのようにレベル1パラメーターの一貫した推定を可能にします(Rabe-Hesketh&Skrondal、2008を参照)。
したがって、クラスター平均のセンタリングは、私の計算上の問題を解決するのに理想的かつ実用的と思われます。ただし、これらの論文は線形回帰(OLS)に向けられているようです。
このクラスター平均センタリングの方法は、固定効果の「複製」バイナリロジスティック回帰にも適用できますか?
同じ答えになるはずのより技術的な質問はxtlogit depvar indepvars, fe
、データlogit depvar indepvars
セットBがデータセットAのクラスター平均中心バージョンであるときに、データセットA とデータセットBが等しいかどうかです。
このクラスター平均のセンタリングで私が見つけた追加の難点は、ダミーに対処する方法です。ダミーは0または1であるため、ランダム回帰と固定効果回帰では同一ですか?それらは「中心」にすべきではありませんか?