log（y）のモデリング時に回帰結果を逆変換する

回帰を適合させてい。指数変換によって変換ポイントの推定値（および信頼性/予測間隔）を逆算することは有効ですか？なので、私はそうは思わないが、他の人の意見が欲しかった。 $\log(y)$ $E[f(X)] \ne f(E[X])$

以下の私の例は、逆変換との競合を示しています（.239対.219）。

set.seed(123)

a=-5
b=2

x=runif(100,0,1)
y=exp(a*x+b+rnorm(100,0,.2))
# plot(x,y)

### NLS Fit
f <- function(x,a,b) {exp(a*x+b)} 
fit <- nls(y ~ exp(a*x+b),  start = c(a=-10, b=15)) 
co=coef(fit)
# curve(f(x=x, a=co[1], b=co[2]), add = TRUE,col=2,lwd=1.2) 
predict(fit,newdata=data.frame(x=.7))
[1] 0.2393773

### LM Fit
# plot(x,log(y))
# abline(lm(log(y)~x),col=2)
fit=lm(log(y)~x)
temp=predict(fit,newdata=data.frame(x=.7),interval='prediction')
exp(temp)
        fit       lwr       upr
1 0.2199471 0.1492762 0.3240752

regression back-transformation

— グレン
ソース

これは、ログリンクされたガウスGLMによって解決される問題の1つではありませんか？

— generic_user 2014

@ARMはい、そう思います。ご指摘いただきありがとうございます。ただし、GLMを使用すると予測間隔を取得するのが難しくなりますが、うまくいくと思います。

— グレン

@GlenこのサイトでDuanにじみを検索します。

— Dimitriy V.Masterov 2014

それはあなたがもう一方の端で何を取得したいかによります。

変換されたパラメーターの信頼区間は、うまく変換されます。対数スケールで名目カバレッジがある場合、変換の単調性のため、元のスケールで同じカバレッジに戻ります。

将来の観測の予測間隔もうまく変換されます。

対数スケールの平均の間隔は、通常、元のスケールの平均の適切な間隔にはなりません。

ただし、対数スケールのモデルから、元のスケールの平均の正確な推定値またはおおよその平均値を作成できる場合があります。

ただし、注意が必要です。そうしないと、多少意外な特性を持つ見積もりが生成される可能性があります（たとえば、それ自体に母集団の平均がない見積もりを生成することは可能です。これは、すべての人が良いことをしているわけではありません）。

$\exp(\mu_i)$ $\exp(\mu_i+\frac{1}{2}\sigma^2)$ $\exp(\hat{\mu_i})$ $\exp(\frac{1}{2}\sigma^2)$

$\sigma^2$

$\hat{\sigma}^2$ $\sigma^2$ $\exp(\hat{\mu_i})\cdot \exp(\frac{1}{2}\hat{\sigma}^2)$ $\exp(\hat{\mu_i})\cdot \exp(\frac{1}{2}\sigma^2)$ $\hat{\mu_i}$ $\mu_i$ $\exp(\hat{\mu_i})$ $\exp(\mu_i)$

こちらをご覧ください。