gungsの答えは、私の見解ではどのようにこれらの変数が相互作用するか、どのように関連するすべての変数のルックスの(真の)共同配送を念頭に置いたモデルがなくても、実証分析で異なる変数の相対的な強さを比較するためのアイデアの批判です。アスリートの身長と体重が原因で言及されている重要性の例を考えてみてください。たとえば、加法線形回帰が条件付き期待関数の適切な近似であること、つまり、アスリートのパフォーマンスにとって、身長と体重が非常に複雑な方法で重要であることを誰も証明できません。両方の変数を含む線形回帰を実行し、標準化された係数を比較できますが、結果が本当に意味があるかどうかはわかりません。
ミッキーマウスの例を挙げて、スポーツクライマー(私のお気に入りのスポーツ)を見てみましょう。ここに、サイト8a.nuから取得したいくつかのパフォーマンス測定による上位の男性クライマーと、身長、体重、および生まれた年に関する情報(これらのみ利用可能な情報を含む)。すべての変数を事前に標準化して、予測値の1つの標準偏差の変化とパフォーマンス分布の1つの標準偏差の変化との関連を直接比較できるようにします。イラストの中で一番高い、アダムオンドラを除いて、次の結果が得られます。:
rm(list=ls(all=TRUE))
# Show only two decimal places
options(digits=2)
# Read Data and attach
climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
head(climber)
# Drop best climber Adam Ondra who is very tall (kind of outlier)
climber<-subset(climber,name!="Adam Ondra")
# Standardize Predictors
climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
# Simple Regression, excluding intercept because of the standardization
lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std
-0.16 -0.25
標準誤差などをまったく無視すると、重量は身長より重要であるか、同様に重要であるように見えます。しかし、登山者は時間の経過とともに良くなっていると主張することもできます。おそらく、より良い屋内施設を介したトレーニングの機会など、コホート効果を制御する必要がありますか?誕生年も含めましょう!
# Add year of birth
lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std born_std
-0.293 -0.076 0.256
さて、私たちは若いことと小さいことはスリムであることよりも重要であることがわかりました。しかし今、別の人はこれがトップクライマーだけに当てはまると主張することができますか?(たとえば、分位点回帰を介して)パフォーマンス分布全体で標準化された係数を比較することは理にかなっています。そしてもちろん、それははるかに小さくてスリムな女性クライマーにとっては異なるかもしれません。誰も知らない。
これは、ガンが言及していると思うミッキーマウスの例です。私はそれほど懐疑的ではありません。正しいモデルを指定したか、または付加的な分離可能性が理にかなっていると思うなら、標準化された係数を検討することは理にかなっていると思います。しかし、これはしばしば当面の問題に依存します。
その他の質問について:
これは、制限された範囲のX1値とより広い範囲のX2値をランダムにサンプリングした可能性があるため、重要度を評価するために標準化された係数を使用すべきではないと言うことと同等ですか?次に、この問題を標準化すると、X1はX2よりも弱い予測子であると偽って考えてしまいます。
ええ、あなたはこのように言うことができると思います。「X2値のより広い範囲」は、X1と相関する重要な変数を含め、X2と相関する変数を除外することにより、変数バイアスを省略することで発生する可能性があります。
真のrが正確に0である場合、問題はなぜ解消するのですか?
変数バイアスの省略は、これが成り立つ良い例です。省略された変数は、結果と同様に予測子と相関している場合にのみ問題(またはバイアス)を引き起こします。Wikipediaのエントリの式を参照してください。真のが正確に0である場合、変数は結果と相関関係がなく、問題がありません(それが予測子と相関している場合でも)。r
他の方法(たとえば、セミパーシャル係数を調べる)は、この問題をどのように解決しますか?
セミパーシャル係数などの他のモデルも同じ問題に直面しています。データセットが十分に大きい場合は、たとえばノンパラメトリック回帰を行って、関数形式(たとえば、加法分離可能性)についての仮定なしに完全な共同分布を推定して、何をしているのかを正当化できますが、これは証明にはなりません。
要約すると、標準化された係数または半部分的な係数を比較することは理にかなっていると思いますが、それは状況に応じて異なります。