特許 残差である値が条件でX(マイナスの平均予測Yの各点でのX)。あなたは変更することができますXあなたが好きな任意の方法(X + 10を、X - 1 / 5、X / π)とYのに対応する値Xの中に与えられた点での値Xは変更されません。したがって、Yの条件付き分布(つまり、Y | XYXYXXX+10X−1/5X/πYXXYY|X)は同じになります。つまり、前と同じように正常かそうでないかです。(このトピックをより完全に理解するために、ここで私の答えを読むのに役立つかもしれません:残差が正規分布しているが、Yはそうでない場合はどうでしょうか?)
変更すると(使用するデータ変換の性質によって異なります)、XとYの機能的な関係が変わります。非線形の変化X(例えば、スキュー除去するために)適切に前に指定されたモデルは、misspecifiedになります。Xの非線形変換は、XとYの関係を線形化したり、関係をより解釈しやすくしたり、別の理論的な問題に対処するためによく使用されます。 XXYXXXY
非線形変換がどのようにモデルを変更し、モデルが回答する質問(ログ変換に重点を置いて)についての詳細は、これらの優れたCVスレッドを読むのに役立つかもしれません:
線形変換はパラメーターの値を変更できますが、機能的な関係には影響しません。あなたは両方の中央たとえば、とYの回帰を実行する前に、切片、β 0は、なります0。もし分割場合同様に、Xを(メートルセンチメートルから変化すると言う)定数によって傾きは、定数で乗算される(例えば、β 1 (M ) = 100 × β 1 (C 、M )であることXYβ^00Xβ^1 (m)=100×β^1 (cm)Y 1センチメートルを超えると100倍も上昇します)。
一方、非線形変換あろう残差の分布に影響を与えます。実際、Yの変換は残差を正規化するための一般的な提案です。このような変換によってそれらが多少正規化されるかどうかは、残差の初期分布(Yの初期分布ではない)と使用される変換に依存します。一般的な戦略は、Box-Cox分布のパラメーターλを最適化することです。ここで注意が必要です。Yの非線形変換は、Xの非線形変換と同じようにモデルを誤って指定する可能性がありますY YYλYX可能性があります。
さて、XとYの両方 が正常な場合はどうなりますか?実際、それは結合分布が二変量正規分布であることを保証するものでもありません(ここで@cardinalの優れた答えを参照してください:結合分布がGaussianではない一対のGaussianランダム変数を持つことは可能ですか?) XY
もちろん、それらはかなり奇妙な可能性のように見えるので、周辺分布が正規に見え、ジョイント分布も二変量正規に見える場合、残差も同様に正規分布する必要がありますか?上記にリンクした回答で示したように、残差が正規分布している場合、の正規性はXの分布に依存します。ただし、残差の正規性が周辺の正規性によって駆動されることは事実ではありません。この単純な例を考えてみましょう(でコード化されています): YXR
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16
プロットでは、両方の周辺が合理的に正規に表示され、ジョイント分布が合理的に2変量正規に見えることがわかります。それでも、残差の均一性はqqプロットに現れます。両方のテールは、正規分布と比べてあまりにも速く脱落します(実際にそうである必要があります)。