潜在的な影響力のあるデータポイントの診断に関して、「内部で学生化された残差」が生の推定残差よりも優れている点は何ですか?


10

私がこれを尋ねる理由は、内部で学習した残差が生の推定残差と同じパターンを持っているように見えるためです。誰かが説明してくれるといいですね。

回答:


13

想定回帰モデルデザイン行列とX1つのあなたの予測子続いてカラム)、予測Y = XX ' X - 1 X ' 、Y = H 、YHです「HAT-マトリクス」)、及び残差E = Y - Y。回帰モデルは、真のエラーϵがすべて同じ分散(ホモスケダシティ)であると想定しています。y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

ホモスケダスティシティ

V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

e/(σ1hii)σ e/(σ^1hii)σ^

ϵ


2つの異なるタイプの残差(および外部から学生化された残差)の定義上の違いは私には明らかです。ただし、実際には、内部で学習した残差が推定残差とは異なるパターンを持っている場合(少なくとも私のデータでは)に遭遇したとは思いません。一方、外部で学習された残差は、推定残差とは異なるパターンを示す可能性があります。* 2つのタイプの残差が同じであるとは言っていません。私は彼らの一般的なパターンについて言及しています。

@AlexH。私が追加した前述の利点は理論上のものであることに同意します。生の残差が誤解を招くようなシミュレートされた経験的状況を構築し、スチューデント化された残差が条件付き分布のより正確な画像を提供することは、良い追加でしょう。
カラカル2012年

12

どのタイプのデータをテストプロットに使用しましたか?すべての仮定が成り立つ(または近づく)場合、生の残差とスチューデント化された残差の違いはあまり期待できません。主な利点は、影響力の大きいポイントがある場合です。正の線形傾向と非常に影響力の大きい外れ​​値を持つこの(シミュレーションされた)データを考えます。

ここに画像の説明を入力してください

これは、フィッティングされた値と生の残差のプロットです。

ここに画像の説明を入力してください

影響力のあるポイントの残差の値が、残りのポイントからの最小および最大残差よりも0に近いことに注意してください(3つの最も極端な未処理残差にはありません)。

これが、標準化された(内部で学生化された)残差のあるプロットです。

ここに画像の説明を入力してください

このプロットでは、その影響が考慮されているため、標準化された残差が際立っています。

x

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.