線形モデルにおける従属変数の異分散性と分布


7

私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。

モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。

  1. 変数が省略される通常の原因は除外します。
  2. 特にログのスケーリングと正規化の後、外れ値は存在しません。
  3. 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。
  4. モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。
  5. 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。
  6. サンプルには20,000の観測があります。

問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。

  1. 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?)
  2. 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。
  3. グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか?

    ここに画像の説明を入力してください ここに画像の説明を入力してください 前もって感謝します。

編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。

また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。

私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか?

さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。

ここに画像の説明を入力してください 編集2:

あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。

この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか?

ここに画像の説明を入力してください 問題が解決しました ?

あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します:

  1. 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。
  2. 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。
  3. 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。

前回の仕様では、不等分散性を制御していると言っていいでしょうか?

ランダムインターセプトM. ランダム係数。 M.(34グループ ランダム係数。 M(398グループ


1
あなたの分析の目的は何ですか?平方根など、DVの他の変換を試しましたか?また、加重最小二乗法や、Huber-Whiteなどの不均一分散一貫性推定量を使用することもできます
Robert Long

1
DVの平方根は問題を解決しません。
Caserio 2016

1
なぜ異分散性を気にするのですか?堅牢な標準エラーを使用し、満足してください
Repmat

2
平方根はほんの一例です。通常の残差が非常に重要である場合、変換は可能であるべきですが、回帰係数は異端性の下で不偏であることを忘れないでください。そして、最初のコメントで述べたように、WLSまたは堅牢な推定器をいつでも使用できます。
ロバートロング

1
堅牢な推定器を使用すると、BPテストについて心配する必要がなくなります。20,000の観測値があるため、多くのことを「検出」できます。
ロバートロング

回答:


1

これは上記の問題の解決策です:

手短に言えば、私の場合、異分散性は少なくとも2つの異なる原因によって引き起こされます。

  1. OLSと「単一レベル」回帰モデルのすべてのファミリーがほとんど説明できないグループの違い。
  2. モデルの関数形式の仕様が間違っています:(@Robert Longが最初に提案したように)DVと共変量の間の関係は線形ではありません。

異分散性を引き起こしているグループの違いに関係するものについては、単一グループの切り捨てられたデータで分析を実行するのに非常に役立ち、異質分散性が単独で考えられた場合、ほぼすべてのグループで失われたことをBPテストから認めます。

ランダムインターセプトモデルをフィッティングすることにより、エラー構造は改善されましたが、上記のコメントで述べたように、異分散性は依然として検出できました。エラー構造をさらに改善することができた変数を方程式のランダムな部分に含めた後でも、問題は解決されたとは考えられませんでした。(この重要な変数、対処戦略は、食糧不足の場合の世帯の習慣をよく説明しています。実際、これらの習慣は通常、地理的な地域や民族グループによって大きく異なります。)

ここで2番目のポイント、最も重要です。DV(元の状態)と共変量の関係は線形ではありません。

この段階で利用できるオプションは次のとおりです。

  1. 非線形モデルを使用して、問題を明示的に考慮してください。
  2. 適切な変換を見つけることができる場合は、DVを変換します。私の場合、DVの平方根。
  3. エラー項(glmファミリ)の分布を仮定しないモデルを使用してみてください。

私の考えでは、最初のオプションは係数の解釈を少し複雑にします(この記事では物事をシンプルに保ちたいという理由だけで、プロジェクトに依存する個人的な観察です)、少なくとも私の(最近の)経験から、より多くの計算能力が必要です。多くのランダム係数と観測値を持つ複雑なモデルの場合、Rがクラッシュする可能性があります。

DVを変換することは、それが機能し、私よりも運が良ければ、確かに最良のソリューションです。どういう意味?対数変換されたDVの場合、解釈はパーセンテージで行われますが、平方根変換はどうでしょうか?結果を他の研究とどのように比較できますか?多分、変換された変数の標準化は、zスコアの結果を解釈するのに役立ちます。私の意見では多すぎる。

glmモデルまたはglmmモデルについては、あまり言えることはありませんが、私の場合は機能しませんでした。glmは、グループ間のランダムな違いと、glmmによって報告された収束の問題の出力を適切に考慮していません。

上記のglmと同じ理由で、私のモデルではDVの変換がOLSでも機能しないことに注意してください。

ただし、少なくとも1つのオプションが残っています。DVを変換せずに不均一分散を修正するために、回帰に重みを割り当てることです。エルゴ:係数の簡単な解釈。

これは、ランダム係数モデルで変換されていないDVを使用しながら、DV_sqrtを使用して取得した結果です。

この段階で、私は患者の標準誤差をロバスト推定量の対応する誤差と比較できます。

ここに画像の説明を入力してください

問題の原因を理解しようとせずに私の場合のようにロバストな推定量を直接使用することに関して、私はこの読みを提案したいと思います:G. King、ME Roberts(2014)、 、そしてそれについて何をすべきか」。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.