を予測子の前に変換する必要があるのはなぜですか?


8

これらのスレッドの両方の回答、1および2人のという主張、形質転換されなければならない前に、予測因子に他の変換を適用します。実際、変換に関するWeisbergの章は、予測子よりもDVに重点を置いており、RカーパッケージpowerTransform()のマニュアルページも同様です。Y

ただし、DV分布の正規性は、BLUE係数を推定するためのOLSの要件ではなく、残差が厳密に正規分布していない場合でも、OLSは依然として妥当な推定量です。

では、なぜ変換に重点を置いているのでしょうか。を変換しない方が実際には望ましいと思う理由はいくつかあります。1つ目はIVの関係を読みにくくし、2つ目は予測で、推定値から元のスケールに逆変換する必要があります。何をしているのかによって、これが問題になる場合があります。Y YYYY


2
1972年以降、一般化された線形モデルを名前で使用してきました。つまり、適切なリンク関数を使用すると、非線形スケールを使用することのすべての利点と、元のデータのスケールで予測を取得することのすべての利点を得ることができます。なぜこれはもっと広く知られ、実践されていないのですか?より長い応答が必要であり、今後の予定ですが、変換されていないデータに適用された線形ツールを使用して非線形関係を分析することはめったにうまくいきません。
Nick Cox

1
+1から@ニックへ。さらに、エラー分布が強く歪んでいる状況で、ほとんどすべての標準手順(つまり、ほぼ正規分布に基づく)との関係を分析することも、通常は複雑で不十分です。非線形再表現は、実際には3つのことを達成するため(そして多くの場合、すべてのそれらを同時に行う):彼らは、ディストリビューション対称残差のを、作成等分散性を、およびリニアライズ関係。
whuber

回答:


5

Xの変換は条件付き分布の形状や不均一分散性に影響を与えないため、Xの変換は実際には非線形関係の処理にのみ役立ちます。(加法モデルをフィッティングしている場合、相互作用を排除するのに役立つ可能性がありますが、それでも多くの場合、Yの変換に任せるのが最善です)

Xのみを変換するのが理にかなっている例:
ここに画像の説明を入力してください

それが-条件付き平均の適合性の欠如-が主な問題である場合、Xを変換することは理にかなっている可能性がありますが、条件付きYの形状または異分散性のために変換している場合は、変換(必ずしも最良の選択ではありませんが、この質問では与えられたものとして変換を採用しています)、Yを変更するには何らかの方法でYを変換する必要があります。

たとえば、条件付き分散が平均に比例するモデルを考えます。

Xだけを変換しても問題を解決できない例:
ここに画像の説明を入力してください

X軸の値を移動しても、右側の値の方が左側の値よりもスプレッドが大きいという事実は変わりません。この変化する変化を変換によって修正する場合は、高いY値を縮小し、低いY値を伸ばす必要があります。

ここで、Yの変換を検討している場合、応答と予測子の間の関係の形状が変化します...したがって、線形モデルが必要な場合は、Xも変換することがよくあります(変換前は線形であった場合、それは後でありません)。時々(上記の2番目のプロットのように)、Y =変換は関係を同時により線形にしますが、常にそうであるとは限りません。

XとYの両方を変換する場合、YとXの関係の形状が変化するため、最初にYを実行する必要があります。通常、変換後にどのような関係になるかを確認する必要があります。その後のXの変換は、関係の線形性を得ることを目的とします。

したがって、一般に、まったく変換する場合は、Yを変換する必要があることがよくあります。その場合、ほとんどの場合、最初に変換する必要があります。


Y=β0+β1X5+ϵX1X

1
@RobertKubrick 、ローカルの平均と相対的ではありません。編集した投稿をご覧ください。
Glen_b-モニカを復活させる'09 / 09/24

ϵYX

Var(ϵ)=Var(Y|X)

1
条件付き平均のみを変更します。それが私の答えでなされているポイントです。
Glen_b-モニカを復活させる'24

2

Yの変換は、最初はデータ分析への時代遅れのアプローチです。私たちの偉大な偉大な祖父はそれをしたので、なぜ私たちがすべきではないのですか?ガウスの仮定がモデルからのエラーにのみ基づいていることを反映する多くの理由とあなたの投稿は、Yシリーズが完全に当てはまるのではなく、モデルからのエラーに基づいています。


4
最初の文に同意するよりも同意します。それでも、答えは少し単純化しすぎています。pHやデシベルなどの例は、科学的測定がすでに多くの場合、変換されたスケールで行われていることを示しています。多くのエコノミストは、収入ではなくログ収入を応答変数として日常的に使用しています。これは、一般の人々が多くの意思決定を行う方法(たとえば、パーセントの考え方)に適合しています。(ここでの歴史も議論の余地があると思います。20世紀半ば以前は、変化は特に一般的ではありませんでした。)
Nick Cox

@ニック私の先祖についてほほえみながら話していました。変容は50代半ばに登場し始めました.....
IrishStat '09 / 09/23

3
ほほえみと色鮮やかな誇張はすぐに購入できますが、それでも正確な記述は正しいはずです。対数正規に関する文献は、対数グラフ用紙と同様に、19世紀に始まりました。トランスフォーメーションは、1950年代以前のいくつかのレビューの対象でした。たとえば、Biometrics 1947のBartlettの論文です。そのため、文献は古くなっています。それは彼らが「特に一般的ではない」という私の以前の主張と一貫していると私は思う。
Nick Cox

3
@Nickの科学者たちは1947年よりもずっと前に変換を使用していました。良い例は、1880年代に変数の適切な非線形変換を選択することで得られた、水素スペクトルの Rydbergのの導出です。心理物理学におけるフェヒナーの研究に訴えることができる。1860年も。この実践は科学において非常に効果的で重要であるため、この回答の最初のステートメントを「時代遅れ」と真剣に受け止めることはできません。
whuber

3
@whuber基本的には同意します。物理学およびその他の科学における変換の使用から、非線形関係を発見する手段として、またはその結果としてしばしば発生する、(一部の)統計学者が推奨する生データの変換の意図的な使用へのスペクトルがあります。ふたつの間に線を引いたくはありません。それは無駄で役に立ちません。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.