異分散性とレプトクルト症は、データ分析で簡単に融合されます。エラー項を生成するデータモデルをコーシーとする。これは同等分散性の基準を満たしています。コーシー分布には、無限の分散があります。コーシーエラーは、外れ値サンプリングプロセスを含めるシミュレータの方法です。
これらの重いテールエラーでは、正しい平均モデルをあてはめた場合でも、外れ値により大きな残差が生じます。異分散性のテストでは、このモデルでタイプIのエラーが大幅に増大しています。コーシー分布にはスケールパラメーターもあります。スケールが線形に増加するエラー項を生成すると、不均一なデータが生成されますが、そのような影響を検出する能力は実質的にゼロであるため、タイプIIエラーも増大します。
次に、適切なデータ分析アプローチは、テストで取り残されないようにすることをお勧めします。統計テストは主に誤解を招くものです。これは、二次モデリングの仮定を検証するためのテストよりも明白です。それらは常識の代わりにはなりません。データについては、2つの大きな残差がはっきりとわかります。残差とフィットのプロットの0ラインから直線的に離れている残差がオフセットされている場合、傾向への影響はごくわずかです。それはあなたが知る必要があるすべてです。
そこで望まれるのは、当てはめられた応答の範囲にわたって予測区間を作成できるようにする柔軟な分散モデルを推定する手段です。興味深いことに、このアプローチは、異分散性とクルトティスの両方のほとんどの正気な形式を処理できます。次に、平均二乗誤差を推定するために平滑化スプラインアプローチを使用しないのはなぜですか。
次の例を見てください。
set.seed(123)
x <- sort(rexp(100))
y <- rcauchy(100, 10*x)
f <- lm(y ~ x)
abline(f, col='red')
p <- predict(f)
r <- residuals(f)^2
s <- smooth.spline(x=p, y=r)
phi <- p + 1.96*sqrt(s$y)
plo <- p - 1.96*sqrt(s$y)
par(mfrow=c(2,1))
plot(p, r, xlab='Fitted', ylab='Squared-residuals')
lines(s, col='red')
legend('topleft', lty=1, col='red', "predicted variance")
plot(x,y, ylim=range(c(plo, phi), na.rm=T))
abline(f, col='red')
lines(x, plo, col='red', lty=2)
lines(x, phi, col='red', lty=2)
外れ値に対応するために「拡大」する次の予測間隔を指定します。それは依然として一貫した分散の推定値であり、「X = 4の周りにこの大きくて不安定な観察があり、そこでの値をあまり有用に予測することはできない」と人々に有益に伝えています。