標準化された係数を使用して回帰予測子の相対的な重要性を評価するのは間違った考えですか?


9

例えば、回帰予測因子の重要性を評価するための様々な方法の優劣に話す様々な質問があり、この 1は。

このコメントでは、 @ gung がこの実践を「誤ったアイデア」と呼んでいることに気づきました。この主張を支持するこの回答にリンクしています。回答の最後の段落は関連部分です。

この問題はそれ自身の質問に値するに値すると思います、そしてまた、推論のいくつかの側面について少しわかりません。問題の段落の最も重要な部分は

真のrが正確に0でない限り、推定されるrは、使用される共変量の値の範囲によって主に決定されます。

これは、制限された範囲の値とより広い範囲の値をランダムにサンプリングした可能性があるため、重要度を評価するために標準化された係数を使用すべきではないと言うことと同等ですか?次に、この問題を標準化すると、はよりも弱い予測子であると偽って考えてしまいます。X1X2X1X2

真のが正確に0である場合、なぜ問題は解消するのですか?r

他の方法(たとえば、セミパーシャル係数を調べる)は、この問題をどのように解決しますか?


2
@gungに任せて、彼の意味を説明します。回帰における変数の相対的な重要性に関する多くの文献があり、標準化されたベータは確かに統計学者からの従来の応答です。このアプローチの弱点の中には、ベータの推定値の標準誤差または変動性に関連する問題があります。これらの問題、および文献と可能なアプローチの徹底的なレビューは、このトピックに関する彼女の論文でUlrike Grompingによって取り上げられています。さらに、彼女はRモジュールRELAIMPOを開発しました... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter

UGのWebサイトではなくCRANからパッケージをダウンロードするために米国内にいる場合は、OPに注意してください。@ DJohnsonが推奨するページの制限を参照してください
mdewey

回答:


4

gungsの答えは、私の見解ではどのようにこれらの変数が相互作用するか、どのように関連するすべての変数のルックスの(真の)共同配送を念頭に置いたモデルがなくても、実証分析で異なる変数の相対的な強さを比較するためのアイデアの批判です。アスリートの身長と体重が原因で言及されている重要性の例を考えてみてください。たとえば、加法線形回帰が条件付き期待関数の適切な近似であること、つまり、アスリートのパフォーマンスにとって、身長と体重が非常に複雑な方法で重要であることを誰も証明できません。両方の変数を含む線形回帰を実行し、標準化された係数を比較できますが、結果が本当に意味があるかどうかはわかりません。

ミッキーマウスの例を挙げて、スポーツクライマー(私のお気に入りのスポーツ)を見てみましょう。ここに、サイト8a.nuから取得したいくつかのパフォーマンス測定による上位の男性クライマーと、身長、体重、および生まれた年に関する情報(これらのみ利用可能な情報を含む)。すべての変数を事前に標準化して、予測値の1つの標準偏差の変化とパフォーマンス分布の1つの標準偏差の変化との関連を直接比較できるようにします。イラストの中で一番高い、アダムオンドラを除いて、次の結果が得られます。:

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

標準誤差などをまったく無視すると、重量は身長より重要であるか、同様に重要であるように見えます。しかし、登山者は時間の経過とともに良くなっていると主張することもできます。おそらく、より良い屋内施設を介したトレーニングの機会など、コホート効果を制御する必要がありますか?誕生年も含めましょう!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

さて、私たちは若いことと小さいことはスリムであることよりも重要であることがわかりました。しかし今、別の人はこれがトップクライマーだけに当てはまると主張することができますか?(たとえば、分位点回帰を介して)パフォーマンス分布全体で標準化された係数を比較することは理にかなっています。そしてもちろん、それははるかに小さくてスリムな女性クライマーにとっては異なるかもしれません。誰も知らない。

これは、ガンが言及していると思うミッキーマウスの例です。私はそれほど懐疑的ではありません。正しいモデルを指定したか、または付加的な分離可能性が理にかなっていると思うなら、標準化された係数を検討することは理にかなっていると思います。しかし、これはしばしば当面の問題に依存します。

その他の質問について:

これは、制限された範囲のX1値とより広い範囲のX2値をランダムにサンプリングした可能性があるため、重要度を評価するために標準化された係数を使用すべきではないと言うことと同等ですか?次に、この問題を標準化すると、X1はX2よりも弱い予測子であると偽って考えてしまいます。

ええ、あなたはこのように言うことができると思います。「X2値のより広い範囲」は、X1と相関する重要な変数を含め、X2と相関する変数除外することにより、変数バイアス省略することで発生する可能性があります。

真のrが正確に0である場合、問題はなぜ解​​消するのですか?

変数バイアスの省略は、これが成り立つ良い例です。省略された変数は、結果と同様に予測子と相関している場合にのみ問題(またはバイアス)を引き起こします。Wikipediaのエントリの式を参照してください。真のが正確に0である場合、変数は結果と相関関係がなく、問題がありません(それが予測子と相関している場合でも)。r

他の方法(たとえば、セミパーシャル係数を調べる)は、この問題をどのように解決しますか?

セミパーシャル係数などの他のモデルも同じ問題に直面しています。データセットが十分に大きい場合は、たとえばノンパラメトリック回帰を行って、関数形式(たとえば、加法分離可能性)についての仮定なしに完全な共同分布を推定して、何をしているのかを正当化できますが、これは証明にはなりません。

要約すると、標準化された係数または半部分的な係数を比較することは理にかなっていると思いますが、それは状況に応じて異なります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.