私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は:
pm10=応答(依存)temp=予測子(独立)rain=予測子(独立)
以下は、私のデータの相関行列です。
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm(と比較してtemp)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる?

