変数を変換する場合、同じ変換をすべて使用する必要がありますか?たとえば、次のように、さまざまに変換された変数を選択できますか。
、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。
Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)
または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか?次のように:
Y = B1*log(x1) + B2*log(x2) + B3*log(x3)
私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav",
use.value.labels=T, to.data.frame=T)
hist(df[1:7])
最後に、それは使用して変数を変換する方法有効です持っているの値を?この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか?x n 0 0
## R Code
plot(df[1:7])