私は、すなわち3つの変数の365観測を含むデータセットを持っているpm
、temp
とrain
。次にpm
、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は:
pm10
=応答(依存)temp
=予測子(独立)rain
=予測子(独立)
以下は、私のデータの相関行列です。
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrain
はpm
(と比較してtemp
)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10
vsの散布図rain
です。また、pm10
vsの散布図を解釈することもできませんrain
。誰かが私を始める方法を手伝ってくれる?