とを回帰に含める方法、およびそれらを中央に配置するかどうか


9

私は長期含めるとその広場、私は低い値と仮定しているため回帰に(予測変数)を従属変数にプラスの効果を有し、高い値が負の効果を持ちます。高い値の影響を捉える必要があります。したがって、の係数は正になり、係数は負になると思います。ほかに、他の予測変数も含めます。x 2 x x 2 x x 2 xxx2xx2xx2x

私はここでいくつかの投稿を読みましたが、多重共線性を回避するために、この場合は変数を中央に配置することをお勧めします。 重回帰を実行するとき、いつ予測変数を中心に置く必要があり、いつ標準化する必要がありますか?

  1. 両方の変数を別々に(平均で)中央揃えする必要がありますか、それとものみを中央から正方形をとるか、またはのみを中央て元のを含める必要がありますか?x 2 xxx2x

  2. がカウント変数である場合、それは問題ですか?x

がカウント変数になるのを避けるために、理論的に定義された面積、たとえば5平方キロメートルで除算することを考えました。これは、点密度の計算に少し似ているはずです。x

ただし、この状況では、およびx²= 4の場合のように、係数の符号に関する私の最初の仮定はもう成り立たないと思います。x=2x²=4

x=2/5 km2 = 0.4 km2

ただし、x ^ 2 =(2/5)^ 2 = 0.16であるため、x2は小さくなり ます。x2=(2/5)2=0.16


1
回帰ソフトウェアは数値の問題を自動的に処理します。特に、データを内部で集中化および標準化する可能性が非常に高くなります。センタリングに関する質問にどのように答えるかは、係数をどのように解釈するかによって決まります。
whuber

回答:


4

あなたの質問は、実際にはいくつかのサブ質問で構成されています。私は、私の理解のできる限りの問題に取り組みます。

  • 低い値と高い値の回帰への依存を区別するにはどうすればよいですか?

と考慮することはそれを行う方法のですが、テストが決定的であると確信していますか?回帰の考えられるすべての結果に役立つ何かを結論付けることができますか?質問を事前に明確に示すことが役立つと思います。同様の関連する質問をすることも役立つと思います。たとえば、回帰勾配が異なるしきい値を検討できます。これは、モデレーター変数を使用して行うことができます。異なる勾配(同じ切片を課している間)に互換性がある場合、違いはありません。そうでない場合は、それらの違いについて明確な議論を提供しました。xx2x

  • いつ中心化して標準化すべきですか?

この質問は最初の質問とテストと混合すべきではないと思いますまたはを中心にして、結果にバイアスがかかるのではないかと心配しています。少なくとも最初の段階では、中心に置かないことをお勧めします。おそらく、多重共線性で死ぬことはないだろうということを覚えておいてください。多くの著者は、これはより小さなサンプルサイズ(herehere)での作業と同等であると主張しています。xx2

  • (連続的な)浮動小数点変数で離散カウント変数を変換すると、結果の解釈が変わりますか?

はい、できますが、これは最初の2つのポイントに大きく依存するため、一度に1つずつ対処することをお勧めします。この変換なしでは回帰が機能しない理由はないので、今は無視することをお勧めします。また、共通の要素で除算することにより、であるスケールを変更しますが、上で書いたように、このしきい値がより明確な方法で考慮される、完全に異なる見方があります。x2=x


回答、特にリンクに感謝します!!!
Peter

お役に立てて光栄でした。=)
ペドロフィゲイラ2014年

4

一般に、センタリングは多重共線性を減らすのに役立ちますが、「多重共線性で死ぬことはおそらくないでしょう」(predrofigueiraの回答を参照)。

最も重要なのは、インターセプトを意味のあるものにするために、センタリングがしばしば必要になることです。単純なモデルでは、切片は予期される結果として定義され。場合はゼロの値は意味がない、どちらもiterceptではありません。多くの場合、変数をその平均の周りに集中させると便利です。この場合、予測子の形式はで、切片は、値が平均と等しい被験者の予想される結果です。yi=α+βxi+εx=0xx(xix¯)αxix¯

そのような場合は、を中央に配置してから正方形にする必要あります。「新しい」変数で結果を回帰するため、と別々に中央することはできません。したがって、この新しい変数を二乗する必要があります。センタリングはどういう意味ですか?xxx2(xix¯)x2

平均が意味のある場合は、カウント変数を中央に配置できますが、スケーリングすることもできます。たとえば、および "2"がベースラインである場合、2を減算できます:。切片は、値が参照値である「2」に等しい被験者の予想される結果になります。x=1,2,3,4,5(xi2)=1,0,1,2,3xi

除算に関しては問題ありません:推定係数が大きくなります!Gelman and Hill、§4.1で例を示します:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

1インチはミリメートルなので、はです。1インチはエミルなので、はです。しかし、これら3つの方程式は完全に等価です。25.4511300/25.41.6e5810000001300/1.6e5



回答ありがとうございます。セルジオ。それは本当に私を助けました。残念ながら、私が受け入れた回答としてマークできるのは1つの回答のみです。
Peter

どういたしまして。そして心配しないでください;-)
セルジオ

1

xの値が低いと従属変数にプラスの影響があり、値が高いとマイナスの影響があると思います。

係数のセンタリングと解釈に関する他の人の扱いに感謝しますが、ここで説明したのは単に線形効果です。言い換えれば、あなたが説明したことは、xの二乗をテストする必要性を示していません。


私の見解では、もしの、(部分的)効果に(上の良好または、)である。このような影響は一定であり、のレベルに依存しません。モデルが場合、の部分効果はあり、のレベルに依存します。これは、線形スプラインモデルなどの他のモデルでも発生する可能性がありますが、単純な線形(1次)モデルでは発生しません。私が間違っている?y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
セルジオ

@ rolando2:samteについて話すかどうかはわかりません。通常の予測子変数のみを含める場合、その予測子の推定係数は正または負になります。係数に基づいて、xに1単位を追加すると、yは特定の量だけ増減します。しかし、この方法では、小さな値が実際にyの増加につながるのか、(特定の未知の点から)値が高くなるとyの減少につながるのかはわかりません。
Peter

@ピーター-私は理解し、あなたの質問の「私は仮定する」という文章を編集して読むことをお勧めします。値が大きいほど悪影響があります。」
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.