なぜRはNAをlm()係数として返すのですか?


32

lm()財務四半期の指標(Q1、Q2、Q3、Q4をデフォルトにする)を含むデータセットにモデルを適合させています。を使用してlm(Y~., data = dataNAQ3の係数としてaを取得し、1つの変数が特異点のために除外されたことを警告します。

Q4列を追加する必要がありますか?

回答:


39

回帰の係数としてのNAは、問題の変数が他の変数と線形に関連していることを示します。あなたの場合、これはいくつかのa b cに対してを意味します。この場合、変数の1つを削除しない限り、回帰に対する一意の解決策はありません。Q 4を追加しても事態が悪化するだけです。Q3=a×Q1+b×Q2+ca,b,cQ4


1
同意します...ダミー変数の定義に問題があるようです。
ドミニクコントワ

14
(+1)。より一般的には、係数は推定できないことを意味します。あなたが述べたように、これは正確な共線性のために起こる可能性があります。ただし、関連するパラメーターを推定するのに十分な観測値がないために発生することもあります(たとえば、)。予測変数がカテゴリカルであり、交互作用項を追加している場合、NAは、因子のレベルの組み合わせで観測値がないことも意味します。p>n
マクロ

2
p>n

Q1 = Q2 = 0の場合、Q3 = 1のように、変数は線形に関連していません。さらに、stepAIC()を使用して、これらの変数の3つすべてをモデルに強制することで問題は発生しません。また、変数の観測数は約3倍です。私の最良の推測は、Q3と他の変数の間に共直線性があることです。
Fraijo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.