重回帰における説明変数間の線形関係


10

私はデータ分析とRを使用したグラフィックの多重回帰の章を読んでいました:例に基づくアプローチと、(散布図を使用して)説明変数間の線形関係をチェックすることをお勧めしていることと、彼らはので、それらを変換し、いずれかをtはない、より直線的に関連になります。これの抜粋は次のとおりです。

6.3複数の回帰モデルを当てはめるための戦略

(...)

すべての説明変数を含む散布図行列を調べます。(この時点では、従属変数を含めることはオプションです。)最初に、説明変数の相互のプロットで非線形性の証拠を探します。

(...)

この点は、モデル検索戦略を識別します- 説明変数間の回帰関係が「単純な」線形形式に従うモデルを探します。したがって、いくつかのペアワイズプロットが非線形性の証拠を示す場合は、変換を使用して、より線形に近い関係を与えることを検討してください。この戦略に従って回帰関係を適切にモデル化することは必ずしも可能であるとは限らないかもしれませんが、これは、以下に示す理由から、検索を開始するときに従うのに適した戦略です。

(...)

説明変数間の関係がほぼ変換後の場合、おそらく変換後、応答変数に対する予測子変数のプロットを自信を持って解釈することができます。

(...)

パネルに表示される(ペアワイズ)関係が線形に見えることを保証する1つ以上の説明変数の変換を見つけることができない場合があります。これは、フィットされた回帰方程式の診断プロット解釈と、フィットされた方程式の係数解釈の両方に問題を引き起こす可能性があります。Cook and Weisberg(1999)を参照してください。

(多重共線性のリスクがあるため)従属変数間の線形関係を積極的に追求するのではなく、心配する必要はありませんか?ほぼ線形に関連する変数を持つことの利点は何ですか?

著者は、この章の後半で多重共線性の問題に対処しますが、この推奨事項は多重共線性の回避とは相容れないようです。

回答:


8

ここには2つのポイントがあります。

  1. この節では、非線形性の証拠がある場合にのみ、IVを線形性に変換することを推奨しています。IV間の非線形関係も共線性を引き起こす可能性があり、より中心的には他の関係を複雑にする可能性があります。本のアドバイスに同意するかどうかはわかりませんが、ばかげていません。

  2. 確かに非常に強い線形関係が共線性の原因になる可能性がありますが、高い相関性は、問題のある共線性を引き起こすのに必要でも十分でもありません。共線性を診断する優れた方法は、条件インデックスです。

コメントに応じて編集

ここでは、条件インデックスを「最大固有値を最小固有値で割った平方根」として簡単に説明しますCVには、それらとそのメリットについて説明する投稿がかなりあります。:彼らの精液テキストはデビッドBelsleyによって2冊あるコンディショニング診断および回帰診断(新版があり、2005年、同様)。


1
+1-良い答えですが、条件インデックスを拡張できますか?候補となる説明変数の共線性を処理するための満足のいく手段をまだ見つけていません。
BGreene 2013年

有益な回答をありがとうございます。expl間の非線形性によって複雑になる他の関係について詳しく説明してください。変数?そして、あなたは今、彼らがexpl間の非線形関係を言うとき、著者が話していることをしますか?変数は、係数の解釈と診断プロットで問題を引き起こす可能性がありますか?
RicardoC、2013年

今のところ例を思い付くことはできませんが、それが起こるのを見てきました。YとXの間に非線形の関係があるように見えます
Peter Flom-Reinstate Monica

3

各説明変数と従属変数間の線形関係は、説明変数間の線形関係も保証します。もちろんその逆は当てはまりません。

近似直線性を与えるように設計された変換が共直線性を高めることは事実です。ただし、そのような変換がない場合、共線性は隠されます。このように共線性を隠しておくことを主張すると、複雑で解釈不能な回帰方程式が生じる可能性があります。

が10倍以上異なる値の範囲である場合yに、の線形関数に近いと仮定します。次に、がリグレッサとして使用される場合、x1との関係の非線形性を説明するために、可能であれば他の説明変数が呼び出されます。結果は、使用可能なすべての説明力を取り込む単純な形式の回帰方程式の代わりに、解釈不可能な係数を持つ非常に複雑な回帰関係になる可能性があります。log(x1)xx

線形に関連する変数を見つけて作業できなかったために発生する可能性のある奇妙な結果は、1950年から2012年に米国に上陸した94大西洋ハリケーンによる死亡に関するデータでハリケーン名効果の女性らしさを主張した最近の論文でよく説明されています。http://www.pnas.org/content/111/24/8782.abstractを参照してください。データは補足情報の一部として入手できます。扱うことに注意してくださいlog(deaths)とモデル線形正常理論(Rの関数を使用してlm())負の二項回帰モデルのユングらの使用とほぼ同等です。

に回帰log(E[deaths])する場合log(NDAM)、最小圧力変数、女性性変数、および相互作用を説明するために残されたものは何もありません。変数log(NDAM)not NDAMは、最小圧力変数に線形に関連するものとして散布図行列に表示されます。また、その分布はスキューがはるかに少なく、対称にはるかに近いです。

Jungらlog(E[deaths])NDAM(正規化された損傷)に加えて、他の変数と相互作用に回帰しました。その後登場した方程式は、名前の女性らしさが大きな影響を与える物語を伝えるために使用されました。

NDAM結果変数がlog(E[deaths])であるlog(deaths+0.5)か、プロットであるか、それともlog(deaths+1)反対であるかを回帰の説明変数として使用することがどれほど奇妙かを確認するにはNDAM。次にlog(NDAM)、の代わりにを使用してプロットを繰り返しNDAMます。Jungらが外れ値として省略したカトリーナとオードリーをプロットに含めると、コントラストはさらに顕著になります。JungらNDAMは、説明変数としてを使用することを主張log(NDAM)することで、非常に単純な形式の回帰関係を見つける機会を逃しました。

注意:E[deaths]モデルによって予測された死亡数です。

Jungらのデータでは、必要な変換はすべての変数の散布図行列から識別できます。andを(変数として)使用して、spm()R用のカーパッケージの最新リリースでR関数を試してください。または、初期の散布図行列によって提案された変換を試してください。一般に、推奨されるアドバイスは、線形予測子の要件を満たす説明変数を最初に探し、次に、車の関数を使用して、結果変数に注目することです。transform=TRUEdeathsfamily="yjPower"invTranPlot()

質問者が参照した「Rを使用したデータ分析とグラフィック」に加えて、次を参照してください。

  • ワイスバーグ:応用線形回帰。4版、Wiley 2014、pp.185-203。
  • Fox and Weisberg:Applied RegressionのRコンパニオン。2nd edn、Sage、2011、pp.127-148。

1

私は、この一節全体を、まったく疑わしいとは言えないにしても、不可解だと思っています。理想的には、従属変数を推定する際にモデルに増分および追加情報を提供するために、独立変数を互いにできるだけ無相関にする必要があります。独立変数間の高い相関関係を通じて多重共線性の問題を提起し、この状況でその問題を提起することは完全に正しいことです。

独立変数間ではなく、独立変数と従属変数のそれぞれの間の散布図と関連する線形関係を調べることがより重要です。そのようなときにこのような散布図(X軸に依存せず、Y軸に依存)を見ると、独立変数を変換して、対数、指数、または多項式のいずれの形式であっても、より適切に適合する可能性があります。


1
2文目:独立変数が完全に無相関である場合、回帰の理論的根拠の多くは疑わしくなります。Yを含む予測子の各2変量関係は、他のすべての予測子が制御されたときの関係と同じように表示されます。その場合、なぜ制御するのですか?
rolando2 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.