線形モデルの異分散性


10

次の線形モデルがあります。

線形モデルの残差 観測分布

残差の異分散性に対処するために、従属変数にとして対数変換を適用しようとしましたが、残差に対する同じファンアウト効果がまだあります。DV値は比較的小さいため、ログを取得する前の+1定数の追加は、この場合はおそらく適切ではありません。log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

特に予測誤差と分散を改善するために変数をどのように変換できますか?

回答:


11

あなたの目標は何ですか?異分散性は係数推定にバイアスをかけないことがわかっています。標準エラーが正しくなくなるだけです。したがって、モデルの適合性のみに関心がある場合、異分散性は問題になりません。

重み付き最小二乗法を使用すると、より効率的なモデル(つまり、標準誤差が小さいモデル)を取得できます。この場合、各観測の分散を推定し、その観測固有の分散の逆数によって各観測に重みを付ける必要があります(のweights引数の場合lm)。この見積もり手順により、見積もりが変更されます。

または、推定値を変更せずに不均一分散の標準誤差を修正するには、ロバストな標準誤差を使用できます。以下のためRのアプリケーション、パッケージを参照してくださいsandwich

対数変換を使用することは、不均一分散を修正するための優れたアプローチですが、すべての値が正であり、新しいモデルが、求めている質問に対して妥当な解釈を提供する場合のみです。


私の主な目標は、エラーを減らすことです。加重最小二乗法を検討する必要がありますが、より高い適合値に対して残差分散がどの程度定期的に増加するかを考えると、DV変換が適切なステップであるという印象を受けました。
ロバートキューブリック

「エラーを減らす」とはどういう意味ですか?平均誤差は0にしても、あなたが選択することを任意のウィンドウで、あなたのプロットに見ている、平均が0である
チャーリー・

モデルの予測を改善することを意味します。つまり、特により高い近似値に対して、全体的な絶対誤差と誤差分散を減らします。
ロバートキューブリック

1
不等分散性を減らすような方法でを変換できるとします。を予測する場合は、その変換の逆を適用して、不均一分散問題を取り戻す必要があります。気になるのが係数だけであれば変換は問題ありませんが、を予測しようとする場合は役に立ちません。y yyyy
チャーリー

1
変換されたを予測したくないと思いますよね?事実上、変換では元のスケールで間の距離を縮小する必要があります。変換された値全体で同様の幅を持つ変換されたスケールで予測区間を作成しますが、変換を元に戻すと、予測区間は元のスケールに引き伸ばされます。y y yyyyy
チャーリー

4

Box-Cox変換を試してみてください。これはパワー変換のバージョンです。

˙Y

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
ここで、はデータの幾何平均です。応答変数の変換として使用する場合、その名目上の役割はデータを正規分布に近づけることであり、歪度はデータが非正規に見える主な理由です。散布図の私の直感は、説明変数と応答変数(の一部)に適用する必要があるということです。y˙

以前のいくつかの議論には、平方根、対数などの一般的な変換を超えて他どのような正規化変換が一般的に使用されていますか?そしてどのように私はゼロを含む非負のデータを変換する必要がありますか?。あなたはRで統計的手順を検索する方法に従ってRコードを見つけることができますか?

計量経済学者は、不均一分散に頑健な推論手順の設定に関するハルバートホワイト(1980)の精力的な作業(実際には、統計学者F.アイッカー(1967)による以前の話を語っただけです)の後、不均一分散について悩むことをやめました。私が書き直したウィキペディアのページをご覧ください。


おかげで、この時点で、パワー変換を適用するか、ロバスト回帰を使用してエラーを減らし、予測間隔を改善するかについて議論しています。2つの手法はどのように比較されるのでしょうか。また、変換を使用する場合、予測値を逆変換する必要があります。それは明白な公式のように見えませんね?
ロバートキューブリック

ロバスト回帰とは、@ StasKが説明するように、ロバストな標準エラーを意味し、残差/エラーはまったく変更されません。係数はOLSとまったく同じで、残差はまったく同じです。係数の標準誤差は変化し、通常はOLS SEよりも大きくなります。係数の正しい標準誤差を使用しているため、予測間隔が改善されています(ただし、OLSの誤差に比べて大きい可能性があります)。あなたの目標がを予測することである場合、あなたは本当に線形モデルに固執し、私が私の回答で言及する手法を使用する必要があります。y
チャーリー

@Charlieつまり、en.wikipedia.org /wiki/Robust_regressionです。私はこれに不慣れですが、ロバスト回帰が推定手法を変更することを理解しているため、残差は異なるはずです。
ロバートキューブリック

そう、それは別の方法であり、あなたの見積もりを変えます。ロバスト回帰は外れ値のあるケースに適していると思います。使用することを決定したロバスト回帰のバージョンと特定のデータセットに応じて、OLSに比べてより広い信頼区間を取得できます。
チャーリー

1

時系列データ内の従属変数に関連する不均一分散問題に対する非常に単純な解決策があります。これが従属変数に適用できるかどうかはわかりません。そうであると仮定すると、名目Yを使用する代わりに、現在の期間から前の期間にわたるYの%変化に変更します。たとえば、あなたの名目Yが現在の期間で14兆ドルのGDPであるとしましょう。代わりに、直近の期間のGDPの変化を計算します(2.5%としましょう)。

名目上の時系列は常に増加し、常に不均一です(値が増加するため、エラーの分散は時間とともに増加します)。従属変数はほぼ定常的であるため、変化率シリーズは通常、ホモスケスティックです。


私が使用していた値は、前期から時系列%の変化です。Y
ロバートキューブリック

これは驚くべきことです。通常、%変更変数は不均一ではありません。残差が私たちが思っているよりも不均一ではないのかと思います。そして、根本的な問題は異常値の1つです。0.15%の範囲で4つまたは5つの観測値が見られますが、これを削除すると、グラフ全体が不均一に見えなくなります。また、他の人が言及したように、不均一性は回帰係数を破壊するのではなく、信頼区間と関連する標準誤差のみを破壊します。ただし、グラフを見ると、CIはあまり影響を受けていないようです。そして、まだ役に立つかもしれません。
Sympa 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.