データを変換するときに避けるべき落とし穴？

15

応答を二重に変換した後、変数 $X$ と $Y$ 変数の間に強い線形関係を達成しました。モデルとなった $Y\sim X$ が、私はそれを変換 $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ 改善 $R^2$ 0.76に0.19から。

明らかに、私はこの関係でいくつかのまともな手術をしました。過度の変換の危険性や統計原則の違反の可能性など、これを行うことの落とし穴について誰でも議論できますか？

regression data-transformation r-squared

— Info5ek
ソース

1

あなたが持っているものから、代数だけからそれはちょうど

ように見え

Y \propto X^{2}

$Y \propto X^2$ ます。データを投稿したり、グラフを表示したりできますか？

ときに

を期待する科学的な理由はありますか？

Y = 0

$Y = 0$

X = 0

$X = 0$

— ニックコックス14年

1

@NickCox：私は考えて

Y \sim X

$Y\sim X$ ための型破りな表記法である

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$ ; おそらく、OPは数学ではなくRを話します（もちろん落胆すべきものです）。

— Scortchi -復活モニカ

@Scortchi私はあなたが正しいことを恐れています。データを見ると、どちらの方法にも役立ちます。

— ニックコックス14年

この場合、Yが死亡を駆動し、Xがすべてのドライバーによって駆動される合計KMであるため、0 Xは0 Yを意味します。

— Info5ek

2

式ではない@AaronHall 必ずしも（バック掛けるので、無用

\sqrt{X}

$\sqrt X$ それはだ

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$ 、状況によってはもっともらしいモデルになる可能性があります）。ただし、質問で与えられた方程式の形式の

R^{2}

$R^2$ はあまり使用されず、異なるスケールに適合したものと比較することはできません。（ちなみに、それが私の答えに対するあなたの賛成票であったなら、あなたが答えで間違っていると思うことの説明が役に立つでしょう。）

— グレン_b -Reinstate Monica 14年

20

基になる変動は異なるため、実際に $R^2$ 前後で比較することはできません。したがって、文字通り、変更から何も慰めを受けることはできません。これは、2つのモデルを比較しても価値がないことを示しています。 $Y$ $R^2$

2つのモデルはいくつかの点で異なっているため、意味が異なります。関係の形状と誤差項の変動性について非常に異なることを想定しています（ $Y$ と関係の観点から考えた場合 $X$ ）。したがって、モデリングに興味がある $Y$ 場合（ $Y$ 自体に意味がある場合）、そのための適切なモデルを作成します。モデリングに興味がある場合 $\sqrt Y$ （/ $\sqrt Y$ は意味があります）、そのための良いモデルを作成します。場合 $\sqrt{Y/X}$ は意味を持ち、そのための良いモデルを作ります。ただし、同等のスケールで競合するモデルを比較します。異なる応答の $R^2$ は単純に比較できません。

高い変換を見つけることを期待して異なる関係を試している場合 $R^2$ -または他の「良好な適合」の尺度-実行する可能性のある推論のプロパティは、存在の影響を受けますその検索プロセス。

推定値はゼロから遠ざかる傾向があり、標準誤差は小さすぎ、p値は小さすぎ、信頼区間は狭すぎます。あなたのモデルは、平均して「非常に良い」ように見えます（サンプル内の動作と比較して、サンプル外の動作は期待外れであるという意味で）。

この種の過剰適合を回避するには、可能であれば、データのさまざまなサブセットでモデルの識別と推定を行う必要があります（3番目のモデル評価）。ランダムに取得されたデータの多くの「分割」に対してこの種の手順を繰り返すと、結果の再現性をよりよく理解できます。

ここには、これらの問題に関連するポイントを含む多くの投稿があります。いくつかの検索を試す価値があるかもしれません。

（特定の変換を選択するアプリオリな理由がある場合、それは別の問題です。しかし、変換の空間を検索して適合するものを見つけるには、あらゆる種類の「データスヌーピング」タイプの問題が伴います。）

— Glen_b -Reinstate Monica
ソース

グレンの回答をありがとう。私がこの変換を行った理由は、バイアスされた残差を与えなかった唯一のものだからです。標準のy / x、log（y）、sqrt（y）、およびそれらのさまざまな組み合わせを試しました。すべてが傾斜した残差プロットになりました。2段階の変換を行って初めて、ランダムに現れる残差が得られました。しかし、あなたは、このモデルはデータをオーバーフィットしている可能性があるため、サンプル外のデータに対して潜在的に情報価値がないと述べています。

— Info5ek

ええ、はい、しかし、データを見るとき、それはどんな形式のモデル仕様にも問題があるので、それは多く起こります。多くの状況では、サンプル分割がで来ることができる場所である、避けるのは難しい（クロスバリデーションは、そのような状況のための便利なツールになります。）。

— Glen_b -Reinstateモニカ

ダウン投票の理由を知ることは有用でしょう。答えの何が問題になっていますか？おそらく改善できるでしょう。（それを改善できない場合、なぜダウン票ですか？）

— Glen_b -Reinstate Monica 14年

1

@Glen_b：しかし、不明確な手順を交差検証するのは難しいです-各フォールドで、診断を見て、それらが好きではないときに別の変換を考え、それを試してみるなどのプロセスを繰り返す必要があります。

— Scortchi -復活モニカ

1

@Scortchiはい、ある単純なルールによって既知の候補プールから変換が選択されていない場合、不可能な場合があります。

— グレン_b-モニカの復帰2014

16

@Glen_bで識別される問題よりも大きな問題があります。

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

そして、0.49のと P値を得る $R^2$ $5.5 \times 10^{-16}$ ます。

あなたは持っている方程式の両側に。 $X$

— ピーター・フロム-モニカの復職
ソース

2

それがモデルを別の方法ではなくある方法で表現するのに十分な先験的な理由を持たないこととは別の問題だとはわかりません。

場合

＆

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

その後、あなただけのようにも最初のモデル（と言うことができます

）持っている

方程式の両側に。

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

— Scortchi -復活モニカ

4

場合は

＆

回帰するランダムノイズ、ある

上で

強力な関係を与えます。変数の意味を考慮せずに、1つの回帰を他の回帰ではなく偽とラベル付けする非対称性はどこから発生するのでしょうか。この種のことは、PearsonとYule（Aldrich（1995））の間で議論されました。私はYuleと一緒にいます。

W

$W$

Z

$Z$

Y

$Y$

X

$X$

— Scortchi -復活モニカ

1

うん、しかし、ここで、あるどの変数もかまいませXとYんで開始回帰は、いわば、変数？

— ピーターフロム-モニカの復職

2

@Glen_bが彼の最初の文で指摘している限り、

を予測することが目標だった場合を除いて、なぜ

モデルの高い決定係数が重要であるかはわかりません。もちろん、エラー用語がどのように見えるかについて強力なアイデアを持っている場合、1つのモデルは他のモデルよりも扱いやすいです。

Y

$Y$

W

$W$

— Scortchi -復活モニカ

4

W＆Z、@ Scortchiについては良い点を挙げていますが、気にする変数は何であるか、そしてより良いモデルを得るために作成した変数は何であるかを考えることが重要であるように思えます。どちらが実際の変数であるかは、実質的な質問の文脈において、Xなどの意味によって決まります。テキストから、OPはXとYの関係を理解し、モデルの適合性を改善するためにWとZを作成したいと考えています。つまり、この具体的なケースでは、Peterが正しいと思われます。Xを両側に配置してモデルを改善しようとすることはできません。

— GUNG -復活モニカ

4

@Peterの例には2つの要素があり、それらを解くと役立つ場合があります。

（1）モデルの仕様の誤り。モデル

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

&

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

, where $w_i=\sqrt{\frac{y_i}{x_i}}$ & $z_i=\sqrt{x_i}$ , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

If $Y$ is assumed to be a Gaussian random variable independent of $X$ , then that's a special case of Model 1 in which $\beta_1=0$ , & you shouldn't be using Model 2. But equally if $W$ is assumed to be a Gaussian random variable independent of $Z$ , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew $Y$ & $X$ to be independent Gaussian random variables, why should the relation between $W$ & $Z$ still surprise you, or would you call it spurious? The conditional expectation of $W$ can be approximated with the delta method:

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

It is indeed a function of $z$ .

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

Neither Model 1 nor Model 2 is much use for predicting $y$ from $x$ , but both are all right for predicting $w$ from $z$ : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of $w$ against $z$ , might be tempted to think that intervening to increase $z$ will reduce $w$ —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

— Scortchi - Reinstate Monica
ソース

3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in $R^2$ that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

— Frank Harrell
ソース