私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。
モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。
- 変数が省略される通常の原因は除外します。
- 特にログのスケーリングと正規化の後、外れ値は存在しません。
- 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。
- モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。
- 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。
- サンプルには20,000の観測があります。
問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。
- 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?)
- 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。
グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか?
編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。
また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。
私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか?
さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。
あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。
この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか?
あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します:
- 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。
- 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。
- 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。
前回の仕様では、不等分散性を制御していると言っていいでしょうか?