回帰:変数の変換


41

変数を変換する場合、同じ変換をすべて使用する必要がありますか?たとえば、次のように、さまざまに変換された変数を選択できますか。

、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか?次のように:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

代替テキスト

最後に、それは使用して変数を変換する方法有効です持っているの値を?この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか?x n 0 0log(xn+1)xn00

## R Code 
plot(df[1:7])

代替テキスト

回答:


59

従属変数を変換して、残差のほぼ対称性と等分散を実現します。独立変数の変換には別の目的があります。結局、この回帰では、すべての独立値はランダムではなく固定値とみなされるため、「正規性」は適用できません。これらの変換の主な目的は、従属変数(または実際にはロジット)との線形関係を実現することです。(この目標は、過剰なレバレッジの削減などの補助的な目標をオーバーライドしますこれらの関係は、データとそれらを生成した現象の特性であるため、各変数の適切な再表現を他の変数とは別に選択する柔軟性が必要です。具体的には、ログ、ルート、および相互の使用が問題ではないだけでなく、かなり一般的です。原則は、データの元々の表現について(通常)特別なものはないということです。そのため、効果的、正確、有用、理論的に正当化されたモデルにつながる再表現をデータに提案させる必要があります。

単変量分布を反映するヒストグラムは、多くの場合、初期変換を示唆しますが、肯定的ではありません。すべての変数間の関係を調べることができるように、それらに散布図行列を付けてください。


以下のような変換との無価値場合でも示すことができる-正の定数働くことができる「開始値」であるゼロではない-が、時には彼らはリニアな関係を破壊します。これが発生した場合、2つの変数を作成することをお勧めします。それらの1つは、がゼロ以外の場合はに等しく、それ以外は何でもです。デフォルトでゼロにすると便利です。もう1つは、と呼びましょうがゼロかどうかの指標です場合は1に等しく、それ以外の場合は0になります。これらの用語は合計に貢献しますc x log x x z x x x = 0log(x+c)cxlog(x)xzxxx=0

βlog(x)+β0zx

見積もりに。場合、第2項はちょうど離れる脱落よう。場合、「」はゼロに設定され、になり、値ます。したがって、は場合の効果を推定し、それ以外の場合、は係数です。、Z 、X = 0 βのログX のx = 0 ログX Z 、X = 1 β 0 β 0、X = 0 β ログX x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)


1
非常に役立つ説明、私のサブ質問の方向と詳細にも感謝します。
ブランドンバーテルセン

pareonline.net/getvn.asp?v=15&n=12 Osborne(2002)は、分布の最小値を正確に1.0に固定することを推奨しています。pareonline.net/getvn.asp?v=8&n=6
クリス

1
@ChrisすべてのBox-Cox変換もで負から正に移行します。ただし、非線形変換には関係ありません。これは、別の変数との関係の分散または線形性への影響を変更せずに線形変換を追跡できるためです。したがって、クライアントが負の数にアレルギーがある場合は、変換後に適切な定数を追加するだけです。ただし、変換のに定数を追加すると、大きな効果が得られる可能性があります。そのため、常にを使用することをお勧めすることはできません。111
whuber

1
私が取り組んでいるデータセットの1つで、従属応答変数を1に固定するようにシフトし、ボックスコックス変換を使用してスキューを排除すると、結果の変換が弱まり、あなたの批評への主要な信用が低下することに気付きました。;)
クリス

1
β0zx
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.