標準化と学生化の違いは何ですか?


21

学生化では不明であるため、標準化の分散では既知であるため、推定されますか?ありがとうございました。


2
質問のコンテキストを明確にしたい場合があります。どのような標準化、どのような学生化か?これらの値は何に使用されていますか?
ラッセルピアス

3
残差について質問している場合、用語は(アヘム)標準化されていません。作成者が異なれば、同じものに異なる名前を使用します。また、悲しいことに最も紛らわしいことに、異なるものに同じ名前を使用します。私が呼ぶものがあります(i)スケーリングされた残差(、一部の著者によって標準化された残差と呼ばれる); (ii)内部的にスチューデント化された残差(一部の著者/パッケージによって標準化され、他者によってスチューデント化されたと呼ばれる); (iii)外部からスチューデント化 / スチューデント化された削除済み残差(yy^i)/s
Glen_b -Reinstate Monica

回答:


20

短い要約。モデルがである場合、は、および、ここでは「帽子行列」です。残差は 。母分散は不明であり、(平均二乗誤差)で推定できます。X N × P β = X ' X - 1 X '、Y 、Y = X β = X X ' X - 1 X '、Y = H 、Y H = X X ' X - 1 X ' E = Y -y=Xβ+εXn×pβ^=バツバツ1バツyy^=バツβ^=バツバツバツ1バツy=HyH=バツバツバツ1バツ

e=yy^=yHy=Hy
M S Eσ2MSE

半学習残差はとして定義され が、残差の分散はと両方に依存するため、推定される分散は次のとおりです。 ここで、はハット行列の番目の対角要素です。 σ2XVEI=MSE1-HIIHIII

e=eMSE
σ2バツ
V^e=MSE1h
h

内部的にスチューデント化された残差とも呼ばれる標準化された残差は次のとおりです

r=eMSE1h

ただし、単一のとは独立していないため、分布をことはできません。手順は、番目の観測値を削除し、回帰関数を残りの観測値に適合させ、で表すことができる新しいを取得します。違い: は削除残差と呼ばます。再計算を必要としない同等の式は次のとおりです 新しいとをで表し 、 M S Eは、rはiが tはiがN - 1 、Yを Y I iは dのiは = Y I - Y I I eMSErtn1y^y^

d=yy^
XMSEXiMSEiiti=di
d=e1h
バツMSEバツMSEは、番目の観測に依存しないため、次のようになります のが呼び出されるスチューデント(削除)残差、または外部スチューデント化された残差のTI
t=dMSE1h=eMSE1htnp1
t

Kutner et al。、Applied Linear Statistical Models、第10章を参照してください。

編集:rpierceによる答えは完璧だと言わなければなりません。OPは標準化され、スチューデント化された残差に関するものだと思っていました(そして、標準化された残差を得るために母集団標準偏差で割ることは、もちろん私には奇妙に見えました)が、私は間違っていました。OTであっても、私の答えが誰かを助けることを願っています。


2
...そしてこの答えは、回帰方程式からスチューデント化された残差を定義する際に正しいです。対応する標準化された残差の定義はありません。回帰フレームワークは、質問に当てはまらないようです。しかし、これは依然として貴重な貢献です。+1
russellpierce

2
@rpierce、あなたは正しいです。「学生化」を読むとすぐに「残余」も読みますが、それらは私の心の中にしかありません;-)ごめんなさい。ラストクリック後のみ、私は見落としに気づきました。
セルジオ

9

社会科学では、通常、Studentizatedスコアは、サンプル分散/標準偏差()から母分散/標準偏差を推定するためにスチューデント/ゴセットの計算を使用すると言われています。対照的に、標準化されたスコア(名詞、特定のタイプの統計、Zスコア)は、母標準偏差?()を使用すると言われています。σsσ

ただし、フィールド間で用語の違いがあるようです(この回答に関するコメントをご覧ください)。したがって、これらの区別を行う際には注意して進める必要があります。さらに、スチューデント化されたスコアがそのようなものと呼ばれることはめったになく、通常、回帰のコンテキストで「学生化された」値が表示されます。@Sergioは彼の答えで、これらのタイプのスチューデント化された削除された残差に関する詳細を提供します。


2
ウィキペディアは、「この用語は、同じ程度の別の統計による高次の統計の標準化にも使用されます。たとえば、3番目の中心モーメントの推定値は、サンプル標準偏差の3乗で割ることによって標準化されます。 」
ニックストーナー

2
母集団の分散が不明な場合、スチューデント化は標準化の形式であると言う方が安全だと思います。これは、より一般的で広く使用されている用語についての誤解を招く記述ではなく、技術的、用語上の区別の点の形をとります。
ニックスタウナー

2
@whuber:質問のコンテキストは基本的なものだったので、基本的な答えをしました。標準スコア(Z)は導入統計で計算され、がそれらに与えられます。時には、実際に母集団の標準偏差があります(たとえば、10人の非欠損データの国勢調査)。σ
ラッセルピアス

2
@Nickさまざまな当局が広く「標準化」を使用しているが、そのような広い意味で「学生化」を使用することはないことを考えると、これは良い解決策のように聞こえます。
whuber

2
@rpierce 2番目の本(Freedman、Pisani、Purves)は、約40年にわたって5つの(ほとんど変更されていない)エディションを経て、UCバークレーのイントロ統計コースのテキストとして始まりました。公衆衛生だけでなく、考えられるほぼすべての分野を網羅しています。一方、その長所の1つは、小さな、無意味な、または過度に技術的な区別を強調することを避けることです。したがって、一般的に統計の良いガイドですが、難解な問題を解決するために頼ることはできません。
whuber

3

私はこの質問に答えるのにとても遅れています!!。しかし、非常に単純な言語で答えを見つけることができなかったので、これに答える謙虚な試み。

標準化を行う理由 2つのモデルがあると想像してください。1つは統計の学習に費やした時間から狂気を予測し、もう1つは統計の時間でログ(クレイジー)を予測します。

残差が両方とも異なる単位にあることを理解するのは難しいでしょう。したがって、それらを標準化します(Zスコアと同様の理論)

標準化された残差:-残差が標準偏差の推定値で除算される場合。一般に、絶対値が3より大きい場合、それは懸念の原因です。

これを使用して、モデルの外れ値を調査します。

スチューデント化された残差:これを使用して、モデルの安定性を研究します。

プロセスは簡単です。モデルから個々のテストケースを削除し、新しい予測値を見つけます。新しい値と元の観測値の差は、標準誤差を分割することで標準化できます。この値はスチューデント化された残差です

Rを使用してより多くの情報の検出のための静- http://www.statisticshell.com/html/dsur.html


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.