クラスターSEを使用する場合と固定効果を使用する場合


17

あなたは、個人がグループ内に配置されているデータの単一断面(学校内などの生徒を)持っていて、フォームのモデルを推定したいと仮定し、個々のレベル特性とのベクトルである定数を。Y_i = a + B*X_iXa

この場合、観測されていないグループ間不均一B性が、対象の独立変数と相関しているため、ポイント推定値とそのSEにバイアスをかけていると仮定します。

1つのオプションは、グループ(学校)によってSEをクラスター化することです。もう1つは、グループFEを含めることです。別の方法は両方を使用することです。これらのオプションを選択する際に考慮すべきことは何ですか?グループごとにSEをクラスタ化し、グループFEを使用する理由は特に不明です。私の特定のケースでは、35のグループと、グループ内にネストされた5,000人の個人がいます。このpdfの説明に従いましたが、クラスター化されたSEと固定効果の両方を使用する理由と時期についてはあまり明確ではありません。

(マルチレベルモデルに適合することを提案する代わりに、クラスター化されたSEとFEの長所と短所について議論してください。)

回答:


21

グループの固定効果および/またはクラスター調整標準誤差を使用する両方のアプローチは、クラスター化された(またはパネル)データに関連するさまざまな問題を考慮に入れます。多くの場合、両方を使用する必要があります。

まず、クラスター内の相関または不均一分散性のためのクラスター調整済みの標準誤差は、さらに仮定を立てない限り、固定効果推定量が考慮しません。短い説明についてはImbensおよびWooldridgeの講義スライドを参照してくださいそして、この問題に関連する長いパネルと様々な問題。キャメロンとミラーによるこのトピックに関する小説論文もあります。クラスターロバスト推論の実務ガイド 分散共分散行列をモデル化したくない場合、クラスター内相関が存在する疑いがある場合は、SEのバイアスが厳しい可能性があるため、クラスターの堅牢な標準誤差を使用することをお勧めします(不均一分散よりもはるかに問題が多いこのトピックの議論については、Angrist&Pischke Chapter III.8。ただし、十分なクラスターが必要です(AngristとPischkeは、親指の役割として40-50を言います)。クラスター調整された標準誤差は標準誤差を考慮に入れますが、ポイント推定値は変更しません(標準誤差は通常上昇します)!

固定効果の推定では、観測されていない時不変の不均一性が考慮されます(前述)。これは良いことも悪いこともあります。一方で、一貫した推定を得るために必要な仮定は少なくなります。一方、役に立つかもしれない多くの分散を捨てます。Andrew Gelmanのような人の中には、固定効果よりも階層モデリングを好む人もいますが、ここでは意見が異なります。固定効果の推定値は、ポイントとインターバルの両方の推定値を変更します(ここでも、標準誤差は通常高くなります)。

要約すると、クラスターロバスト標準エラーは、クラスター間およびクラスター内相関のモデリングに煩わ​​されたくない場合(および使用可能なクラスターが十分にある場合)、クラスターデータに関連する可能性のある問題を説明する簡単な方法です。固定効果の推定では特定の変動のみが使用されるため、変動が少ないことに基づいて推定を行うかどうかはモデルによって異なります。しかし、さらなる仮定がなければ、固定効果の推定では、分散行列のクラスター内相関に関連する問題は処理されません。クラスターロバスト標準誤差は、固定効果推定の使用に関連する問題も考慮しません。


2
いい反応。残っている重要な問題は、なぜ両方が必要なのかということです。ImbensとWooldridgeはこれをある程度カバーしています。
QuestionAnswer

12

固定効果は、データ内の異なるグループ間で観測されていない不均一性を除去するためのものです。

FEモデルを使用するかどうかの決定は、「変化の少ないかどうか」を使用するかどうかに依存するという受け入れられた応答の意味に同意しません。従属変数が、パネル内のグループ間で体系的に異なる観察不能な変数の影響を受ける場合、この変動と相関する変数の係数はバイアスされます。X変数がランダムに割り当てられていない限り(また、観測データと共に使用されることは決してありません)、通常、省略された変数の引数にバイアスをかけるのはかなり簡単です。あなた制御変数の適切なリストを使用して、省略された変数の一部を制御できますが、強力な識別が第一の目標である場合、制御の広範なリストでさえ、重要な読者が結果を疑う余地を残します。これらの場合、通常、固定効果モデルを使用することをお勧めします。

クラスター化された標準エラーは、各グループ内の観測値がiidでない(独立して同一に分布している)状況を説明するためのものです。

典型的な例は、時間をかけて企業のパネルについて多くの観察結果がある場合です。企業レベルの固定効果を説明することはできますが、従属変数には説明されていない変動が時間にわたって相関している場合があります。一般に、時系列データを使用する場合、通常、グループ内のエラー用語で一時的なシリアル相関を仮定するのが安全です。これらの状況は、クラスター化されたSEの最も明白なユースケースです。

いくつかの実例:

ランダムに処理を割り当てる実験データがあり、時間の経過とともに各個人/グループに対して繰り返し観察を行う場合、固定効果を省略することは正当化されますが、SEをクラスター化する必要があります。

または、非実験データのグループごとに多くの観測値があるが、各グループ内の観測値は、より大きなグループからのiid描画と見なすことができます(たとえば、多くの学校からの観測値がありますが、各グループはランダムに描画されたサブセットです)学校の生徒の場合)、固定効果を含める必要がありますが、クラスター化されたSEは必要ありません。


2

これらの回答は問題ありませんが、最新かつ最良の回答はAbadie et al。(2019)「クラスタリングの標準エラーをいつ調整しますか?」固定効果の場合、クラスター化する主な理由は、クラスター全体で治療効果に不均一性があることです。他の理由もあります。たとえば、クラスター(たとえば、企業、国)が人口内のクラスターのサブセットである場合(これについては推測しています)。クラスタリングは設計上の問題であり、論文の主なメッセージです。盲目的にしないでください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.