線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?


11

マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。

このコードを使用して、バイナリ変数の残差プロットを生成しています。

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか?

残差プロット:

GR1の残差プロット MBAの残差プロット

回答:


8

@NickCoxは、2つのグループがある場合の残差の表示について話しました。このスレッドの背後にあるいくつかの明示的な質問と暗黙の仮定について取り上げます。

「独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか?」あなたは持っている複数の回帰モデルを。(複数の)回帰モデルは、どこでも一定である1つのエラー項のみがあると仮定します。各予測子について個別に異分散性をチェックすることは、それほど意味がありません(そして、そうする必要はありません)。これが、重回帰モデルがある場合に、残差対予測値のプロットから異分散性を診断する理由です。おそらく、この目的に最も役立つプロットは、スケール位置プロット(「スプレッドレベル」とも呼ばれます)です。これは、残差の絶対値と予測値の平方根のプロットです。例を見るには線形回帰モデルに「一定の分散」があるとはどういう意味ですか?

同様に、各予測子の残差を正規性についてチェックする必要はありません。(正直なところ、それがどのように機能するかさえわかりません。)

あなたがすることができ、個々の予測変数に対する残差のプロットでやっていることは関数形式が正しく指定されているかどうかを確認するためのチェックです。たとえば、残差が放物線を形成している場合、失われたデータに曲率があります。例を確認するには、@ Glen_bの回答の2番目のプロットを確認してください: 線形回帰でのモデル品質の確認。ただし、これらの問題はバイナリ予測子には適用されません。

価値があることについては、カテゴリカル予測子しかない場合は、異分散性をテストできます。Leveneの検定を使用するだけです。私はここでそれを議論します:なぜF比ではなく分散の平等のLeveneの検定? Rでは、車のパッケージの?leveneTestを使用します。


編集:重回帰モデルがある場合に、残差対個々の予測子変数のプロットを見ても役立たない点をよりわかりやすく説明するために、次の例を検討してください。

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

データ生成プロセスから、異分散性がないことがわかります。モデルの関連プロットを調べて、問題のある異分散性を示唆しているかどうかを確認してみましょう。

ここに画像の説明を入力してください

いいえ、心配する必要はありません。ただし、残差と個々のバイナリ予測子変数のプロットを見て、異分散性があるように見えるかどうかを確認します。

ここに画像の説明を入力してください

問題が発生しているようです。データ生成プロセスから、不均一性はなく、これを調査するための主要なプロットも何も示さなかったことがわかっているので、ここで何が起こっているのでしょうか?多分これらのプロットは役立つでしょう:

ここに画像の説明を入力してください

x1そしてx2互いに独立していません。さらに、観測x2 = 1は極限にあります。それらはより多くのレバレッジを持っているので、それらの残差は自然に小さくなります。それにもかかわらず、異分散性はありません。

要点メッセージ: 最善の策は、適切なプロット(残差VS近似プロット、および拡散レベルプロット)からのみ不均一性を診断することです。


ありがとう!同じ回帰で、残差VとYは同等分散的であることがわかりましたが、残差Vの保有期間(独立)を確認すると、漏斗の形状でした。だから私はこれを修正するためにいくつかの変換を行う必要がありますか?次に、このコンテキストでは、なぜ残留Vs独立変数をチェックする必要がないと述べたのかを理解したかっただけですか?
GeorgeOfTheRF 2014年

@ mrcet007、変換は必要ありません。res vs fitが異分散性を示さない場合、問題ありません。おそらくイラストが役立つでしょう。デモを追加するために回答を編集しました。
gung-モニカの回復

このリンクpeople.duke.edu/~rnau/testing.htmを確認できますか。それはまた、残差対独立変数をチェックすることを言います。議論のために共有するだけです。これについてコメントしていただけますか?私が考えていたのは、予測される残差Vと残差vs独立の両方を常にチェックする必要があるということでした。エラー(a)対時間(時系列データの場合)(b)対予測(c)対任意の独立変数の
同等

私のコメントは、残差vs予測グラフを見て異分散性をチェックする理由と、残差vs IVグラフを見るとどのように迷うかを示す例の両方を提供したことです。他に何を言うべきかわかりません。
ガン-モニカの回復

6

この場合、従来の残差プロットはより困難です。つまり、分布がほぼ同じであるかどうかを確認することは(はるかに)困難です。しかし、ここには簡単な代替案があります。あなたは2つの分布を比較しているだけであり、それを行うには多くの良い方法があります。いくつかの可能性は、横並びまたは重ね合わせの変位値プロット、ヒストグラムまたはボックスプロットです。私自身の偏見は、飾り気のない箱ひげ図はしばしばここで過剰に使用されるということです。それらは、私たちがそれを重要でないとしばしば却下することができる場合でも、見たい詳細を抑制します。しかし、あなたはあなたのケーキを食べて、それを持つことができます。

あなたはRを使用していますが、あなたの質問の統計はR固有のものは何もありません。ここでは、単一のバイナリ予測子の回帰にStataを使用し、予測子の2つのレベルの残差を比較する変位値ボックスプロットを起動しました。この例の実際的な結論は、分布はほぼ同じであるということです。

ここに画像の説明を入力してください

プロットが不可解に見える場合の詳細:各分布について、分位点プロットがあります。つまり、順序付けられた値が(小数)ランクに対してプロットされます。中央値と四分位数を示すボックスが重ねて表示されます。したがって、各ボックスは通常の方法で垂直に定義され、小数ランクおよび線で囲まれているため水平に定義されます。3 / 41/43/4

注:極端な外れ値でボックスプロットを提示する方法も参照してくださいRを使用した同様のプロットの@Glen_bの例を含めます。このようなプロットは、適切なソフトウェアであれば簡単です。そうでなければ、あなたのソフトウェアはまともではありません。


+1美しい。ここにも残差の仮説検定の役割があると思いますか?
Alexis

@gung編集を編集しました。あなたがそれを誤解した場合、オリジナルは明らかに十分に明確ではありませんでした。
Nick Cox

2
@アレクシスありがとう!この場合、散布が等しいという仮説がグラフによって非公式にサポートされているという考えに満足しています。私は、分析の小さなステップごとにP値で明確化する必要があるとは思っていません。残念ながら、あなたが正しい方法でジャンプすることを確認するのは決して簡単ではありませんが、私が疑わしい場合は、実際には他のモデルも楽しませるでしょう。ここでの例は質問のために作成されたものであり、深刻な分析の一部ではありません。
Nick Cox

すみません、ニック。その言葉の意味を誤解しました。タイプミスだと思いました。今はもっとはっきりしています。
gung-モニカの復活

1
@whuber私はそれで結構です。一部の人々はそれらを混乱させると思うので、そう言われます。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.