変数の順序は線形回帰で重要ですか


9

2つの変数(と)間の相互作用を調査しています。これらの変数の間には、かなりの線形相関があります。問題の性質から、因果関係については何も言えません(が引き起こすか、またはその逆か)。外れ値を検出するために、回帰直線からの偏差を調べたいと思います。これを行うには、関数として線形回帰を作成するか、またはその逆を行います。可変順序の選択は結果に影響しますか?x 2 r > 0.9 x 1x1x2r>0.9x1x 1 x 2x2x1x2


外れ値の検索では、最初にと両方に対して従属変数を回帰し、外れ値を探します。 x 2x1x2
スケネクタディ、

外れ値を見つけることはあなたの調査の目的ですか?その場合は、まずと両方に対して従属変数を回帰し、次に外れ値テストを実行する必要があります。考えられる原因を見つける場合は、計画的な実験を行うことを検討する必要があります。実験の目的が2つの独立変数間の関係を見つけることである場合、収集されたデータの偶然の発生を調べてもうまくいきません。 x 2x1x2
スケネクタディ、

外れ値によってあなたが何を意味するのか私にははっきりしません。データに外れ値がある場合、それらは回帰直線の計算に影響します。と両方で同時に外れ値を探しているのはなぜですか? x 2x1x2
DQdlM 2011年

@schenectady LaTeXにはコメントで$$を使用してください。

回答:


3

それは確かに可能です(実際には、データの仮定に関しても重要です。共変量が与えられた場合の結果の分布についてのみ仮定を行います)。この観点から、「逆予測分散」のような用語を検索する場合があります。いずれにせよ、線形回帰は因果関係については何も言いません!せいぜい、注意深い設計を通して因果関係について何かを言うことができます。


3

ケースを対称にするために、2つの変数の差()とそれらの平均値を後退させることができます。Δx


3

標準回帰では、点と線の間の垂直距離が最小になるため、2つの変数を切り替えると、水平距離が最小になります(同じ散布図の場合)。別のオプション(いくつかの名前で呼ばれます)は、垂直距離を最小化することです。これは、主成分を使用して行うことができます。

以下は、違いを示すRコードです。

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

外れ値を探すには、主成分分析の結果をプロットするだけです。

あなたはまた見たいかもしれません:

Bland and Altman(1986)、臨床測定の2つの方法間の一致を評価するための統計的方法。ランセット、307-310ページ


0

x1およびx2変数は同一線上にあります。多重共線性が存在する場合でも、パラメーター推定には偏りはありませんが、それらの分散は大きく、つまり、パラメーター推定の有意性に関する推論は無効であり、予測には大きな信頼区間があります。

パラメータ推定値の解釈も困難です。線形回帰フレームワークでは、x1のパラメーター推定値は、モデル内の他のすべての外生変数が一定に保たれている場合のx1の単位変化に対するYの変化です。あなたの場合、x1とx2は高い相関関係にあり、x1が変化しているときにx2を一定に保つことはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.