いいえ、スチューデント化された残差と標準化された残差は異なる(ただし関連している)概念です。
Rは実際には組み込み関数rstandard()
を提供しrstudent()
、influence.measuresの一部として提供します。同じ組み込みパッケージがレバレッジ、クックの距離などの多くの同様の機能を提供します。rstudent()
基本的にと同じMASS::studres()
です。次のように自分で確認できます。
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
標準化された残差は、ポイントのレバレッジ/影響を考慮に入れる特定のデータポイントのエラーを推定する方法です。これらは、「内部で学生化された残差」と呼ばれることもあります。
ri=eis(ei)=eiMSE(1−hii)−−−−−−−−−−−√
標準化された残差の背後にある動機は、私たちのモデルが固定分散 iidエラー項を持つ等分散性を仮定したとしても、分布、残差はできないためです。残差の合計は常に正確にゼロです。ϵi∼N(0,σ2)ei
特定のデータポイントのスチューデント化された残差は、問題のデータポイントを除く他のすべてのデータポイントに適合するモデルから計算されます。これらはさまざまに「外部スチューデント化残差」、「削除残差」、または「ジャックナイフ残差」と呼ばれます。
計算上難しい(それはこの音に聞こえる私たちはすべてのポイントに1つの新しいモデルに適合する必要があると思いますように)実際には再装着せずに、単に元のモデルからそれを計算する方法があります。標準化された残差が場合、スチューデント化された残差は次のようになります。riti
ti=ri(n−k−2n−k−1−r2i)1/2,
スチューデント化された残差の背後にある動機は、外れ値テストでの使用に由来します。ポイントが異常値であると思われる場合は、定義上、想定されたモデルから生成されたものではありません。したがって、モデルのフィッティングにその外れ値を含めることは誤りであり、仮定に違反します。スチューデント化された残差は、実際的な外れ値の検出で広く使用されています。
スチューデント化された残差には、各データポイントについて、元の回帰モデルの正規性の仮定が満たされていると仮定すると、残差の分布がスチューデントのt分布になるという望ましい特性もあります。(標準化された残差はそれほど良い分布ではありません。)
最後に、Rライブラリが上記とは異なる命名法に従う可能性のある懸念に対処するために、Rのドキュメントでは、上記とまったく同じ意味で「標準化」と「学生化」を使用することを明示的に述べています。
関数rstandard
とrstudent
、それぞれ標準化された残差とスチューデント化された残差を与えます。(これらの再正規化残差を用いて、単位分散を有するように、全体的なおよびリーブワンアウトそれぞれ誤差分散の尺度)。
R
用語はMontgomery、Peck、Vining(35年間使用されている人気のある回帰テキスト)の反対です。したがって、注意して、R
用語の意味に依存するのではなく、ドキュメントと必要に応じてそのソースコードを研究するようにしてください。