重回帰の残差対近似値プロットの対角直線


11

私のデータの残差の奇妙なパターンを観察しています: ここに画像の説明を入力してください

[編集] 2つの変数の部分回帰プロットを次に示します。

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[編集2] PPプロットを追加 http://i.imgur.com/pCKFA.png

ディストリビューションは順調に進んでいるようですが(下記参照)、この直線がどこから来ているのかわかりません。何か案は? ここに画像の説明を入力してください

[更新31.07]

確かに、あなたは完全に正しいことがわかりました。私は、リツイート数が実際に0であるケースがあり、これらの〜15のケースは、これらの奇妙な残差パターンをもたらしました。

残差はずっと良く見えます: http://i.imgur.com/XGas9.png

黄土の線を含む部分回帰も含めました。 http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


元のデータにプロットされた近似線も追加できますか?
MånsT

また、図のサブタイトルは「コミュニティ:アニメ」と言うと「コミュニティ:占星術」これらのプロットは、異なるデータセットから来ることを意味しているようだ、...
MånsT

従属変数がカテゴリカルであるか、または「十分に連続的でない」場合、残差でこのタイプのパターンを確認しました。
キング

適切なPPプロットと2つのIVの部分プロットを追加しました
plotti '27 / 07/27

回答:


23

一部のサブレンジでは、従属変数が一定である、予測子に正確に線形に依存しているようです。XとYの2つの相関変数があるとします(Yは依存します)。散布図は左側にあります。

ここに画像の説明を入力してください

例として、最初の(「一定」の)可能性に戻りましょう。最低から-0.5までのすべてのY値を単一の値-1に再コード化します(中央の図を参照)。XでYを回帰し、残差散布をプロットします。つまり、予測画像が水平になるように中央の画像を回転させます。それはあなたの写真に似ていますか?


6
それは最高の法医学統計です!大きな+1。
Michael R.Chernick

確かに、あなたは完全に正しいことがわかりました。私は、リツイート数が実際に0であるケースがあり、これらの〜15のケースは、これらの奇妙な残差パターンをもたらしました。 i.imgur.com/XGas9.png
plotti 2012

4

ヒストグラムにパターンが表示されないのは当然のことですが、奇数パターンはヒストグラムの範囲のかなりの範囲に及び、各ビンの少数のデータポイントのみを表しています。あなたは本当にそれらがどのデータポイントであるかを見つけ出し、それらを見る必要があります。予測値と残差を使用して、それらを簡単に見つけることができます。値を見つけたら、それらがなぜ特別なのかを調査し始めます。

とはいえ、この特定のパターンは長いため、特別なものにすぎません。残差プロットと分位点プロットを注意深く見ると、繰り返されますが、より小さなシーケンスであることがわかります。多分それは本当にただの異常です。または、おそらくそれは実際に繰り返されるパターンです。しかし、生データのどこにあるのかを見つけて調べ、それをまったく理解する希望を得るために調査する必要があります。

少し助けになるように、分位点-分位点プロットは、同一の残差がたくさんあることを示唆しています。コーディングエラーの可能性があります。私はRで似たようなものを生成することができます...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

ラインの平らな2つの平らなスポットに注意してください。ただし、同じ残差がさまざまな予測子に渡っているという暗示があるため、それよりも複雑に見えます。


3

を使用してRいるようです。その場合、?identifyを使用して散布図上の点を特定できることに注意してください。ここでいくつかのことが起こっていると思います。まず、LN_RT_vol_in ~ LN_AT_vol_in(強調表示されたもの)のプロットで約(.2、1.5)に非常に影響力のあるポイントがあります。これは、標準化された残差である可能性が非常に高く、約-3.7です。そのポイントの効果は、回帰直線を平らにし、そうでなければ得られるであろう鋭く上向きの線よりも水平に傾けることです。その効果は、すべての残差が、プロット内に配置されていた場合に比べて反時計回りに回転することですresidual ~ predicted(少なくとも、共変量の観点から考えて、他のものを無視する場合)。

それにもかかわらず、元のデータの3次元クラウドのどこかに存在するため、表示される残差の明らかな直線はまだ存在しています。どちらのマージナルプロットでも見つけるのが難しい場合があります。Identify()関数を使用して支援することができます。また、rglパッケージを使用して、マウスで自由に回転できる動的な3D散布図を作成することもできます。ただし、直線残差はすべて予測値が0未満であり、残差が0未満である(つまり、近似回帰直線より下にある)ことに注意してください。これは、どこを見ればよいかについての大きなヒントになります。あなたのプロットをもう一度見てくださいLN_RT_vol_in ~ LN_AT_vol_in、私はそれらを見るかもしれないと思います。その領域の点群の下端に、(-。01、-1.00)から斜め下方に左に伸びるかなりまっすぐな点のクラスターがあります。それが問題のポイントだと思います。

言い換えると、残差はデータスペース内のどこかに既にあるため、残差はそのように見えます。本質的に、これは@ttnphnsが示唆していることですが、元の次元のいずれにおいても一定ではないと思います。元の軸に対してある角度の次元では一定です。さらに、@ MichaelChernickに同意します。残差プロットのこの明らかな直線性はおそらく無害ですが、データはあまり正常ではありません。ただし、これらはいくぶん正常に見えるものであり、適切な数のデータを持っているように見えるため、CLTがカバーする可能性がありますが、念のためブートストラップしたい場合があります。最後に、その「異常値」が結果を後押ししていることを心配します。堅牢なアプローチはおそらく値するされます。


1
これit's a constant in a dimension at an angle to your original axesは私の声明と私のis exactly linearly dependent on the predictor(s)に匹敵しますか、それとも別の意味ですか?
ttnphns 2012

@ttnphns、私がそれをすくい取ったとき、私はあなたの答えのその部分を逃しました。私は「定数」を見て、あなたの陰謀の要点を見ました、そしてそれが私が持ち帰ったものです。はい、「それは次元の定数です...」は「正確に線形に依存しています...」と論理的に同義です。私のコアポイントはおおむね(+1)とほとんど同じであることがわかりましたが、他のいくつかのポイント(どのデータが原因である可能性が高いか、R戦略、堅牢なアプローチなど)もまだ議論に貢献していると思います。
gung-モニカの復活

確かに、あなたの答えは私に大きく貢献しました。
ttnphns 2012

1

ヒストグラムが大丈夫だとは必ずしも言えません。ヒストグラムに最適な法線を視覚的に重ね合わせると誤解を招く可能性があり、組織像はビン幅の選択に敏感になる可能性があります。正常確率プロットは正常からの大きな逸脱を示しているようで、ヒストグラムを見てもわずかに歪んでいるように見えます([-0.5,0]ビンと比較して[0、+ 0.5]ビンの頻度が高い)重度の尖度([-4、-3.5]と[2.5、3]の間隔の頻度が高すぎる)。

あなたが見るパターンに関しては、それは散布図を通しての選択的な探索から来ているかもしれません。さらに狩りをすると、あなたが選んだものとほぼ平行な2、3本のラインを見つけることができるようです。あなたはこれを読みすぎていると思います。しかし、非正規性は本当の懸念です。非常に大きな外れ値が1つあり、残差はほぼ-4です。これらの残差は最小二乗法によるものですか?私は、データの散布図の適合線を見ることが賢明であることに同意します。


2つのIVの部分的なプロットを追加して、これについてさらに詳しく説明します
plotti '27 / 07/27

1
最も基本的なもの、つまりデータの散布図を通る近似直線を見たいと思います。
Michael R. Chernick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.