ln(x)とln(x)^ 2の間の多重共線性


7

負の二項モデルを実行していて、予測変数の1つがカウント変数です。この変数は大きく歪んでいたため、ログ変換することにしました。

ただし、この変数の影響は非線形であると仮定されています。ただし、モデルに2乗項を含めるとすぐに、これらの2つの変数のVIFが20を超えているのに対し、他のすべての予測子は1と5の間のVIFで安定したままです。

私の現在の理解では、関係は線形であってはならず、したがって、マルチコリネリーは発生しません。

誰かが多重共線性の原因を説明し、この問題の可能な解決策を提供できますか?


まあ、f(x)= x ^ 2、これは共線性が発生する場所です。xとx ^ 2の間の共線性を減らしたい場合は、xを中央に配置し、中央に配置された共変量を二乗することをお勧めします。この投稿を参照してください:theanalysisfactor.com/…–
Brash Equilibrium

のドメインは何ですか?非常に小さい値の場合、はおよそと見なすことができます。xxx2
Dan

xは1から650の間ですが、対数変換の後、値は明らかに非常に小さくなります(0と2.8の間)
statsnewby

変数とその二乗の関係(たまたまの対数とその対数の二乗ですが、ここではそれほど重要ではありません)は線形ではなく、無相関であると想定しているようです。他の人はすでにエラーを説明していますが、この関連スレッドに興味があるかもしれません:変数とその二乗間のピアソン相関x
Silverfish

回答:


12

非常に小さなカウントを除いて、は基本的に線形関数です:log(x)2log(x)

プロットと線形近似を示す図

色付きの線は、さまざまな範囲のカウントとに適合する最小二乗法です。がを超えると非常に良好です(程度でもなお非常に良好です)。log(x)2log(x)xx10x>4

変数の2乗の導入は、適合度をテストするために使用されることがありますが、(私の経験では)説明変数として適切な選択となることはめったにありません。非線形応答を説明するには、次のオプションを検討してください。

  • 非線形性の性質を調べます。適切な変数や変換を選択してキャプチャします。

  • カウント自体をモデルに保持します。より大きなカウントでも共線性があるため、数値的に安定した近似を実現するために、とから直交変数のペアを作成することを検討してください。xlog(x)

  • スプライン(および/または)を使用して、非線形性をモデル化します。xlog(x)

  • 問題を完全に無視します。十分なデータがある場合、大きなVIFは重要ではない可能性があります。正確な係数推定値を取得することを目的としない限り(変換の意欲はそうではないことを示唆しています)、共線性はほとんど問題になりません。


これは、以下で実行できなかった質問のコンポーネントに対処するため、私が好む答えです。log(x)
Brash Equilibrium

答えをありがとう、それはそれを完全に明確にしました!フォローアップとして-私はその変数への減少するリターンを示したいと思っています、そして二乗された項を導入するオプションだけを知っています。ログの使用を考慮した場合、より適切なアプローチは何ですか?
statsnewby 2017年

4つの箇条書きの選択肢のいずれかが可能性があります。
whuber

1

共線性の原因はです。と間の相関を減らす1つの方法は、を中央に配置することです。ましょと計算。スケールの下端には絶対値が大きいため、その二乗は大きくなり、と間の関係はと間の関係よりも直線的ではなくなります。このアドバイスは分析係数から得られますhttp : //www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/f(x)=x2xx2xz=xE(x)z2zz2xx2

:効果を解釈するときは、共変量をスケーリングしたことを覚えておいてください。また、モデルの結果はデー​​タに依存するため、一部の研究者はスケーリングに注意を払う場合があります。この問題に関するAndrew Gelmanからのいくつかの見解は次のとおりです。http//andrewgelman.com/2009/07/11/when_to_standar/


ありがとう!このアプローチについて2つの質問があります。最初に、あなたが参照しているxは、変換されていないxまたはln(x)ですか?ln(x)を中央に配置しても、大きな改善は見られませんでした(VIFは16)。第二に、XとE(x)の平均を意味しますか?それゆえ、変数を中心に置くことを意味しますか?
statsnewby 2017年

ああ、良い点、私はあなたの質問のその部分を忘れていました。@whuberからの回答を参照します。
Brash Equilibrium
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.