正規分布されていないデータに対して回帰は機能しますか?


8

データのヒストグラム

変数xとyが一緒にまたは個別にQ_7(上記のヒストグラム)に大きく影響するかどうかを確認しようとしています。Shapiro-Wilk正規性テストを実行し、以下を取得しました

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

このディストリビューションでは、次の回帰は機能しますか?または、私がしなければならない別のテストはありますか?

lm(Q_7 ~ x*y)

7
データではなく残差をチェック
李哲源

ログ変換を試してくださいQ_7。現時点では、大幅に右に歪んでいます。予測子の分布も確認してください。
Joe、

1
ガウスマルコフ定理を調べます。
G.グロタンディーク

平方根変換を試してください。ゼロが多い場合、ログ変換はうまく機能しない可能性があります。また、カウントを扱っているため、ポアソン負の二項回帰はより自然な選択です。
utobi 2016年

1
「非データ」とはどういう意味ですか?
Silverfish

回答:


17

回帰分析は、データが回帰モデルの変数を条件として通常分布していることを前提としています。すなわち、これは回帰モデルであれば、され: 回帰変数のあなたの行列であり、Yが説明されるべきデータ(ベクトル)であり、βは説明変数で係数のベクトルであり、εはありますランダムな変動(一般的に考えられてノイズが)、その後、正規性の仮定は厳密に適用されるεないY(編集:だけでなく、厳密に言えば、それは条件付きの配布に適用されるY | X

y=バツβ+ε
バツyβεεyy|バツ(これはの分布と同じですが、yの周辺分布とは異なります)。言い換えると、データは、リグレッサの影響が考慮された後は正規分布する必要がありますが、以前は(必ずしも)考慮されていません。εy

ここでテストしているのはの分布です。テストしたいのはεの分布です。もちろん、あなたは知らないεをしますが、回帰を実行し、残差のdistrbution調べることによって、それを推定することができますε = Y - Xのββは回帰からの推定的係数ですが)。これらの残差εの推定値ですε、およびので、その分布はの分布の近似値になりますεyεεε^=yバツβ^β^ε^εε


これは標準的なものの良い要約ですが、この質問の主要な機能を見逃しているようです。つまり、歪んでいるがゼロではない応答では、この関数形式は良い考えではないようです。否定的な予測を回避するため、およびその他の理由から、ポアソン回帰はより良い出発点のようです。
Nick Cox

8

短い答えはイエスです。

yバツε

lmYバツ

  • E[ε|バツ]=0
  • Varε<

残差が無相関であり、それらすべてが同じ分散を持っているとさらに仮定すると、ガウスマルコフの定理が適用され、OLSが最良の線形不偏推定量(青)になります。

残差が相関しているか、異なる分散がある場合でも、OLSは機能しますが、精度が低下する可能性があります。これは、推定の信頼区間を報告する方法(たとえば、堅牢な標準誤差を使用)に反映する必要があります。

また、残差が正規分布であると仮定すると、OLSは最尤と同等であるため、漸近的に効率的になります。

したがって、データが正常に分散されている場合、回帰はより適切に機能しますが、そうでない場合でも機能します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.