出力と予測子の間に実質的な相関関係がない場合、どのようにして適切な線形回帰モデルを取得できますか?


17

一連の変数/機能を使用して、線形回帰モデルをトレーニングしました。モデルのパフォーマンスは良好です。しかし、予測変数と良好な相関関係を持つ変数は存在しないことに気付きました。どうして可能ですか?


3
これらは素晴らしい答えですが、質問には答えを埋めようと努力している多くの詳細が欠けています。私の心の最大の質問は、「良い相関」とはどういうことかということです。
DHW

回答:


35

1組の変数は、高い部分相関(他の変数の影響を説明する相関)を示す場合がありますが、低い(またはゼロの)限界相関(ペアワイズ相関)もあります。

つまり、応答yと予測子xのペアワイズ相関は、他の変数のコレクションの中で(線形)「予測」値を持つ適切な変数を識別する上でほとんど価値がない場合があります。

次のデータを考慮してください。

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

yとxの相関はです。最小二乗線を引くと、完全に水平になり、R 2は自然に0になります0R20

ただし、2つのグループのどちらから観測値が得られたかを示す新しい変数gを追加すると、xは非常に有益になります。

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

x変数とg変数の両方を含む線形回帰モデルのは1になります。R2

ペアワイズ線形関係の欠如を示すy対xのプロットですが、色はグループを示しています。 各グループ内で関係は完璧です

この種のことは、モデル内のすべての変数で発生する可能性があります。すべてが応答との小さなペアワイズ相関を持ちますが、それらすべてを含むモデルは応答の予測に非常に優れています。

追加の読み物:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


R2gR2g

y=x41g

それが実際に応答が作成されたモデルでした。しかし、青い点を任意の1つのユニットから持ち上げて(画面の表面から新しい「g」軸方向に沿って)持ち上げ、6つの点に適合する平面を見るだけで、直線であることがすぐにわかります。
-Glen_b

1
回帰では、X変数は条件付けられ、多くの場合制御されます。そのため、「独立」は一般に探しているものではありません。計画された実験以外では、独立した予測変数はほとんど見られません。また、実験を計画した場合、予測変数はランダム変数ではないため、「独立」(統計的な意味)は見ているものではありません-むしろ何かおそらく相互の直交性のように。... ctd
Glen_b -Reinstate Monica

1
ctd ...本当にすべての予測子の(相互/ p変量)統計的独立性を意味する場合、そのように単変量回帰で係数が正確にゼロになることはありませんが、上記の例のように完全に分離する必要もありません。
Glen_b -Reinstateモニカ

2

X1X2

X2X1X1ρx1,y|x2y=β1X1+β2X2+ϵρx1,y


0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.