lmモデルのスチューデント化された残差対標準化された残差


10

「学習された残差」と「標準化された残差」は回帰モデルで同じですか?Rで線形回帰モデルを構築し、スチューデント化された残差v / s近似値のグラフをプロットしたいのですが、Rでこれを行う自動化された方法が見つかりませんでした。

モデルがあるとしましょう

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

次に、を使用plot(lm.fit)しても、スチューデント化された残差と近似値のプロットは提供されませんが、標準化された残差と近似値のプロットは提供されます。

私はplot(lm.fit$fitted.values,studres(lm.fit)それを使用して、目的のグラフをプロットします。したがって、正しい方向に進んでいて、スチューデント化された残差と標準化された残差が同じではないことを確認したいだけです。それらが異なる場合は、それらとそれらの定義を計算するためのガイドを提供してください。ネットを検索したところ、少しわかりにくいことがわかりました。


2
それは+1 される()実際に残差のこれらの種類が異なるため混乱が、(b)は別の当局はそれらを呼び出すために何に同意しません!たとえば、R用語はMontgomery、Peck、Vining(35年間使用されている人気のある回帰テキスト)の反対です。したがって、注意して、R用語の意味に依存するのではなく、ドキュメントと必要に応じてそのソースコードを研究するようにしてください。
whuber

回答:


11

いいえ、スチューデント化された残差と標準化された残差は異なる(ただし関連している)概念です。

Rは実際には組み込み関数rstandard()を提供しrstudent()influence.measuresの一部として提供します。同じ組み込みパッケージがレバレッジ、クックの距離などの多くの同様の機能を提供します。rstudent()基本的にと同じMASS::studres()です。次のように自分で確認できます。

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

標準化された残差は、ポイントのレバレッジ/影響を考慮に入れる特定のデータポイントのエラーを推定する方法です。これらは、「内部で学生化された残差」と呼ばれることもあります。

ri=eis(ei)=eiMSE(1hii)

標準化された残差の背後にある動機は、私たちのモデルが固定分散 iidエラー項を持つ等分散性を仮定したとしても、分布、残差できないためです。残差の合計は常に正確にゼロです。ϵiN(0,σ2)ei

特定のデータポイントのスチューデント化された残差は、問題のデータポイントを除く他のすべてのデータポイントに適合するモデルから計算されます。これらはさまざまに「外部スチューデント化残差」、「削除残差」、または「ジャックナイフ残差」と呼ばれます。

計算上難しい(それはこの音に聞こえる私たちはすべてのポイントに1つの新しいモデルに適合する必要があると思いますように)実際には再装着せずに、単に元のモデルからそれを計算する方法があります。標準化された残差が場合、スチューデント化された残差は次のようになります。riti

ti=ri(nk2nk1ri2)1/2,

スチューデント化された残差の背後にある動機は、外れ値テストでの使用に由来します。ポイントが異常値であると思われる場合は、定義上、想定されたモデルから生成されたものではありません。したがって、モデルのフィッティングにその外れ値を含めることは誤りであり、仮定に違反します。スチューデント化された残差は、実際的な外れ値の検出で広く使用されています。

スチューデント化された残差には、各データポイントについて、元の回帰モデルの正規性の仮定が満たされていると仮定すると、残差の分布がスチューデントのt分布になるという望ましい特性もあります。(標準化された残差はそれほど良い分布ではありません。)

最後に、Rライブラリが上記とは異なる命名法に従う可能性のある懸念に対処するために、Rのドキュメントでは、上記とまったく同じ意味で「標準化」と「学生化」を使用することを明示的に述べています。

関数rstandardrstudent、それぞれ標準化された残差とスチューデント化された残差を与えます。(これらの再正規化残差を用いて、単位分散を有するように、全体的なおよびリーブワンアウトそれぞれ誤差分散の尺度)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.