応答を二重に変換した後、変数と変数の間に強い線形関係を達成しました。モデルとなった が、私はそれを変換 改善0.76に0.19から。
明らかに、私はこの関係でいくつかのまともな手術をしました。過度の変換の危険性や統計原則の違反の可能性など、これを行うことの落とし穴について誰でも議論できますか?
応答を二重に変換した後、変数と変数の間に強い線形関係を達成しました。モデルとなった が、私はそれを変換 改善0.76に0.19から。
明らかに、私はこの関係でいくつかのまともな手術をしました。過度の変換の危険性や統計原則の違反の可能性など、これを行うことの落とし穴について誰でも議論できますか?
回答:
基になるYの変動は異なるため、実際に前後で比較することはできません。したがって、文字通り、R 2の変更から何も慰めを受けることはできません。これは、2つのモデルを比較しても価値がないことを示しています。
2つのモデルはいくつかの点で異なっているため、意味が異なります。関係の形状と誤差項の変動性について非常に異なることを想定しています(と関係の観点から考えた場合)。したがって、モデリングに興味がある場合(自体に意味がある場合)、そのための適切なモデルを作成します。モデリングに興味がある場合(/は意味があります)、そのための良いモデルを作成します。√の場合は意味を持ち、そのための良いモデルを作ります。ただし、同等のスケールで競合するモデルを比較します。異なる応答のは単純に比較できません。
高い変換を見つけることを期待して異なる関係を試している場合-または他の「良好な適合」の尺度-実行する可能性のある推論のプロパティは、存在の影響を受けますその検索プロセス。
推定値はゼロから遠ざかる傾向があり、標準誤差は小さすぎ、p値は小さすぎ、信頼区間は狭すぎます。あなたのモデルは、平均して「非常に良い」ように見えます(サンプル内の動作と比較して、サンプル外の動作は期待外れであるという意味で)。
この種の過剰適合を回避するには、可能であれば、データのさまざまなサブセットでモデルの識別と推定を行う必要があります(3番目のモデル評価)。ランダムに取得されたデータの多くの「分割」に対してこの種の手順を繰り返すと、結果の再現性をよりよく理解できます。
ここには、これらの問題に関連するポイントを含む多くの投稿があります。いくつかの検索を試す価値があるかもしれません。
(特定の変換を選択するアプリオリな理由がある場合、それは別の問題です。しかし、変換の空間を検索して適合するものを見つけるには、あらゆる種類の「データスヌーピング」タイプの問題が伴います。)
@Glen_bで識別される問題よりも大きな問題があります。
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)
そして、0.49のと5.5 × 10 − 16の P値を得るます。
あなたは持っている方程式の両側に。
@Peterの例には2つの要素があり、それらを解くと役立つ場合があります。
(1)モデルの仕様の誤り。モデル
&
, where & , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.
If is assumed to be a Gaussian random variable independent of , then that's a special case of Model 1 in which , & you shouldn't be using Model 2. But equally if is assumed to be a Gaussian random variable independent of , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knew & to be independent Gaussian random variables, why should the relation between & still surprise you, or would you call it spurious? The conditional expectation of can be approximated with the delta method:
It is indeed a function of .
Following through the example ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
Neither Model 1 nor Model 2 is much use for predicting from , but both are all right for predicting from : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of against , might be tempted to think that intervening to increase will reduce —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.
Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.
The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.