異分散性に対処する最良の方法は?


19

不均一分散性が非常に明確な、近似値の関数での線形モデルの残差値のプロットがあります。しかし、この不均一分散性が私の線形モデルを無効にすることを理解している限り、今どのように進めるべきかはわかりません。(そうですか?)

  1. パッケージのrlm()関数を使用した堅牢な線形フィッティングを使用するのは、MASS不均一分散性に対して明らかに堅牢であるためです。

  2. 係数の標準誤差は不均一分散のために間違っているので、標準誤差を不均一分散に対してロバストになるように調整できますか?ここでスタックオーバーフローに投稿された方法を使用:ヘテロスケダスティクスによる回帰標準エラーを修正

私の問題に対処するために使用する最良の方法はどれですか?ソリューション2を使用すると、モデルの予測機能はまったく役に立ちませんか?

Breusch-Pagan検定では、分散が一定ではないことが確認されました。

近似値の関数における私の残差は次のようになります。

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(拡大版)


「stackexchange」ではなく「stackoverflow」を意味しますか?(まだstackexchangeにいます。)SOの場合、一般的には2番目のコピーを投稿するよりも質問を移行する方が良いです(ヘルプは同じQを複数回投稿せず、最適な場所を1つ選択するように求めます)。
Glen_b-モニカを復活させる

スプレッドの変動はそれほど大きくないため、影響は大きくなります(つまり、標準エラーと影響の推測に偏りがありますが、おそらく大きな違いはありません)。スプレッドが平均に関連しているかどうかを検討する傾向があり、GLMまたはおそらく変換(おそらくフィットに関連するように見える)を調べます。y変数とは何ですか?
Glen_b -Reinstate Monica

2
別の可能性はgls、パッケージnlmeからの分散構造の1つを使用するなど、不均一分散をモデル化することです。
ローランド

回答:


18

良い質問ですが、間違った質問だと思います。図から、不均一分散性よりも根本的な問題があることがわかります。つまり、モデルには考慮していない非線形性があります。モデルが持つ可能性のある多くの潜在的な問題(非線形性、相互作用、外れ値、異分散性、非正規性)は、お互いに見せかけている可能性があります。厳格で速いルールはないと思いますが、一般的には、順番に問題に対処することをお勧めします

outliers > nonlinearity > heteroscedasticity > non-normality

(たとえば、近似を歪める奇妙な観測があるかどうかをチェックする前に非線形性を心配しないでください。不均一分散性を心配する前に正規性を心配しないでください)。

この特定のケースでは、二次モデルに適合しますy ~ poly(x,2)(または、それが問題を解決するかどうpoly(x,2,raw=TRUE)y ~ x + I(x^2)を確認します)。


プロットは小さく、軸にはラベルが付けられていません。残差対近似プロットかどうかはわかりません。OPには2乗項が含まれると仮定しました。そうでない場合、あなたは明らかに正しい。
GUNG -復活モニカ

1
私のブラウザで私が...スケール場所プロットアウトフィットプロット/ルール対残差を示唆しているようだこれは、y軸の範囲から行くこと-4 3に見ることができます
ベンBolker

1
こんにちは、ベン、あなたの仕事が大好きです。「外れ値」が最大の問題であるという考えを拡張できますか?わずかな残差がある場合でも、単一の高レバレッジポイントを「外れ値」として含めますか?私は仕事の行(環境統計)で常に極端な値の観測に対処しており、一部の人々(特にEPA)は外れ値を不均衡に吹き飛ばす傾向があり(意図しない駄洒落を許して)意欲的ですそれらを除外します。データ(収集、入力)エラーの結果であるという明確な証拠が見つからない場合、外れ値に対して寛容な態度を取る傾向があります。
ダルトンハンス

1
@DaltonHance:おそらくほぼ同じページにいます。私のポイントは、(定義によって)外れ値があり、使用している統計モデル/手法(混合モデル、堅牢な統計、ファットテール分布など)によって考慮されない場合、残りのすべての診断を台無しにする傾向があります-残差は非線形/ヘテロセダスティック/非正常に見えます。私は確かにあなたがただ考えずに/再帰的にそれらを捨てるべきではないことに同意します。
ベンボルカー16年

8

Rここで、不均一分散性に対処するいくつかの方法を(例とともに)リストします:不均一分散データに対する一元配置分散分析の代替案。これらの推奨事項の多くは、複数レベルのカテゴリ変数ではなく単一の連続変数を持っているため理想的ではありませんが、いずれにしても概要として読み通すとよいでしょう。

あなたの状況では、重み付き最小二乗(外れ値があるかもしれないと思われる場合は、おそらくロバスト回帰と組み合わせる)が妥当な選択です。Huber-Whiteサンドイッチエラーを使用することも良いでしょう。

特定の質問に対するいくつかの回答を次に示します。

  1. 堅牢な回帰は実行可能なオプションですが、私の意見では重みと組み合わせるとより良いでしょう。分散不均一性が外れ値によるものであることに不安がない場合は、重み付きの通常の線形回帰を使用できます。分散は外れ値に非常に敏感になる可能性があり、結果は不適切な重みに敏感になる可能性があることに注意してください。そのため、最終モデルにロバスト回帰を使用するよりも重要なことは、重みの推定にロバストな分散測定を使用することです。リンクされたスレッドでは、たとえば、1 / IQRを使用します。
  2. 標準誤差は、不均一分散のために間違っています。Huber-Whiteサンドイッチ推定器を使用して、標準誤差を調整できます。それが、@ GavinSimpsonがリンクされたSOスレッドで行っていることです。

バツバツ


1
lmrobパッケージからロバスト回帰を使用すると、いくつかの重みが自動的に推測されますが、代わりに#1でそれらを使用しないのはなぜですか?
tool.ish

1

を読み込み、sandwich package回帰のvar-cov行列を計算しますvar_cov<-vcovHC(regression_result, type = "HC4")(のマニュアルをお読みくださいsandwich)。次lmtest packagecoeftest関数を使用して:

coeftest(regression_result, df = Inf, var_cov)

0

データの分布はどのように見えますか?それはまったくベルカーブのように見えますか?主題から、それはまったく正常に配布できますか?たとえば、電話の通話時間は負ではない場合があります。そのため、呼び出しの特定のケースでは、ガンマ分布はそれをうまく説明しています。ガンマを使用すると、一般化線形モデル(Rのglm)を使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.