@NickCoxは、2つのグループがある場合の残差の表示について話しました。このスレッドの背後にあるいくつかの明示的な質問と暗黙の仮定について取り上げます。
「独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか?」あなたは持っている複数の回帰モデルを。(複数の)回帰モデルは、どこでも一定である1つのエラー項のみがあると仮定します。各予測子について個別に異分散性をチェックすることは、それほど意味がありません(そして、そうする必要はありません)。これが、重回帰モデルがある場合に、残差対予測値のプロットから異分散性を診断する理由です。おそらく、この目的に最も役立つプロットは、スケール位置プロット(「スプレッドレベル」とも呼ばれます)です。これは、残差の絶対値と予測値の平方根のプロットです。例を見るには線形回帰モデルに「一定の分散」があるとはどういう意味ですか?
同様に、各予測子の残差を正規性についてチェックする必要はありません。(正直なところ、それがどのように機能するかさえわかりません。)
あなたがすることができ、個々の予測変数に対する残差のプロットでやっていることは関数形式が正しく指定されているかどうかを確認するためのチェックです。たとえば、残差が放物線を形成している場合、失われたデータに曲率があります。例を確認するには、@ Glen_bの回答の2番目のプロットを確認してください: 線形回帰でのモデル品質の確認。ただし、これらの問題はバイナリ予測子には適用されません。
価値があることについては、カテゴリカル予測子しかない場合は、異分散性をテストできます。Leveneの検定を使用するだけです。私はここでそれを議論します:なぜF比ではなく分散の平等のLeveneの検定? Rでは、車のパッケージの?leveneTestを使用します。
編集:重回帰モデルがある場合に、残差対個々の予測子変数のプロットを見ても役立たない点をよりわかりやすく説明するために、次の例を検討してください。
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
データ生成プロセスから、異分散性がないことがわかります。モデルの関連プロットを調べて、問題のある異分散性を示唆しているかどうかを確認してみましょう。
いいえ、心配する必要はありません。ただし、残差と個々のバイナリ予測子変数のプロットを見て、異分散性があるように見えるかどうかを確認します。
問題が発生しているようです。データ生成プロセスから、不均一性はなく、これを調査するための主要なプロットも何も示さなかったことがわかっているので、ここで何が起こっているのでしょうか?多分これらのプロットは役立つでしょう:
x1
そしてx2
互いに独立していません。さらに、観測x2 = 1
は極限にあります。それらはより多くのレバレッジを持っているので、それらの残差は自然に小さくなります。それにもかかわらず、異分散性はありません。
要点メッセージ: 最善の策は、適切なプロット(残差VS近似プロット、および拡散レベルプロット)からのみ不均一性を診断することです。