正規分布のXとYは、正規分布の残差になる可能性が高いですか?


12

ここでは、線形回帰における正規性の仮定の誤解について説明し(「正規性」は残差ではなくXおよび/またはYを参照する)、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。

私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか?多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。

回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります(異なる/変換なし)か、または回帰前の変換は完全に任意ですか?


1
「可能性が高い」と答えるには、おそらくマージンだけでなく、共同分布について何かを推測する必要があります。
-Glen_b-モニカを復元14

回答:


15

特許 残差である値が条件X(マイナスの平均予測Yの各点でのX)。あなたは変更することができますXあなたが好きな任意の方法(X + 10をX - 1 / 5X / π)とYのに対応する値Xの中に与えられた点での値Xは変更されません。したがって、Yの条件付き分布(つまり、Y | XYXYXXX+10X1/5X/πYXXYY|X)は同じになります。つまり、前と同じように正常かそうでないかです。(このトピックをより完全に理解するために、ここで私の答えを読むのに役立つかもしれません:残差が正規分布しているが、Yはそうでない場合はどうでしょうか?

変更すると(使用するデータ変換の性質によって異なります)、XYの機能的な関係が変わります。非線形の変化X(例えば、スキュー除去するために)適切に前に指定されたモデルは、misspecifiedになります。Xの非線形変換は、XYの関係を線形化したり、関係をより解釈しやすくしたり、別の理論的な問題に対処するためによく使用さます。 XXYXXXY

非線形変換がどのようにモデルを変更し、モデルが回答する質問(ログ変換に重点を置いて)についての詳細は、これらの優れたCVスレッドを読むのに役立つかもしれません:

線形変換はパラメーターの値を変更できますが、機能的な関係には影響しません。あなたは両方の中央たとえば、Yの回帰を実行する前に、切片β 0は、なります0。もし分割場合同様に、Xを(メートルセンチメートルから変化すると言う)定数によって傾きは、定数で乗算される(例えばβ 1 M = 100 × β 1 C 、M であることXYβ^00Xβ^1 (m)=100×β^1 (cm)Y 1センチメートルを超えると100倍も上昇します)。


一方、非線形変換あろう残差の分布に影響を与えます。実際、Yの変換は残差を正規化するための一般的な提案です。このような変換によってそれらが多少正規化されるかどうかは、残差の初期分布(Yの初期分布ではない)と使用される変換に依存します。一般的な戦略は、Box-Cox分布のパラメーターλを最適化することです。ここで注意が必要です。Yの非線形変換は、Xの非線形変換と同じようにモデルを誤って指定する可能性がありますY YYλYX可能性があります。


さて、XYの両方 が正常な場合はどうなりますか?実際、それは結合分布が二変量正規分布であることを保証するものでもありません(ここで@cardinalの優れた答えを参照してください:結合分布がGaussianではない一対のGaussianランダム変数を持つことは可能ですか?XY

もちろん、それらはかなり奇妙な可能性のように見えるので、周辺分布が正規に見え、ジョイント分布も二変量正規に見える場合、残差も同様に正規分布する必要がありますか?上記にリンクした回答で示したように、残差が正規分布している場合、の正規性はXの分布に依存します。ただし、残差の正規性が周辺の正規性によって駆動されることは事実ではありません。この単純な例を考えてみましょう(でコード化されています): YXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

ここに画像の説明を入力してください

プロットでは、両方の周辺が合理的に正規に表示され、ジョイント分布が合理的に2変量正規に見えることがわかります。それでも、残差の均一性はqqプロットに現れます。両方のテールは、正規分布と比べてあまりにも速く脱落します(実際にそうである必要があります)。


0

簡単な答えは、古典的な単純回帰理論にあります。Xは固定されており、既知であると想定されています(たとえば、http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/)、測定エラーがない場合でも、最小二乗ベータは偏りがあり、一貫性がありません(https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyuを参照してください) .edu / mrg217 / public / measurement_handouts.pdf&cd = 2&ved = 0CCMQFjAB&usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ&sig2 = 4lAnOQO23FiZbZ7323jOzA)。

Xを変数にすることに関して、ガウスマルコフの定理に関するウィキペディアは、引用するために非常に簡潔に述べています。

「OLSのほとんどの治療において、データXは、固定されているものとする。この仮定は、計量経済学のような主に非実験科学には不適切であると考えられる。[2]の代わりに、ガウス-マルコフの仮定は定理は上の条件記載されているX

これは、科学から芸術、または芸術/科学への大きなお世辞のような変容として読んだ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.