線形回帰のホモセダスティシティ仮定対スチューデント化された残差の概念


7

スチューデント化された残差について読みましたが、予測子の特定の値を条件として、さまざまな残差分散の考え方が理解できません。 X (スチューデント化された残差の概念によって暗示されるように)は、単一の予測子変数を使用する線形回帰モデルにおける等分散性の仮定と本質的に矛盾していません。

それは私の教科書で、等分散性の仮定は、 Y (従属変数)条件付き X=x(独立予測変数の特定の実現)は、この予測変数の値の範囲全体で一定です。この条件付き分散は、残差変数の条件付き分散にも等しいと言いますε 与えられた x。私の理解では、これは人口レベルでの発言です。まとめると、次のようになります。

Var(Y|X)=Var(ε|X)=σε2

後でこの本は、従属変数の外れ値の検出を扱い、標​​準化およびスチューデント化された残差の使用を提案しています。標準化された残差は個々の残差ですεi 推定標準偏差で割った σ^ε母集団の残差変数の。標準化された残差の場合、各残差εi したがって、同じ定数値を使用して標準化されます σ^ε 等分散性を仮定できる場合:

Stand.Resi=εiσ^ε

ただし、次の段落では、スチューデント化された残差が導入されています。本は言う: "残差の推定の精度が距離とともに増加することを示すことができますxi その平均から x¯。スチューデント化された残差の場合、残差はその推定標準誤差全体ではなく、その場所での残差の推定標準偏差で除算されます。xi。この標準偏差は、次の式から取得できます。

Student.Resi=εiσ^ε1hi

hi (この単純な場合:単数)予測子のレバレッジスコア xi。したがって、この場合、残差はすべて同じ定数値で除算されるのではなく(標準化された残差の場合のように)、代わりにてこ比の値に依存する残差標準誤差の分布があるように見えます。このサイトの他の質問で説明されているように、これらのレバレッジ値は予測変数の両端で大きくなります。ウィキペディア(https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions)には次のように書かれています:

回帰分析では、エラーと残差の区別は微妙で重要であり、スチューデント化された残差の概念につながります。独立変数を従属変数に関連付ける観測できない関数(たとえば、線)がある場合、この関数からの従属変数の観測値の偏差は観測できないエラーです。一部のデータに対して回帰を実行する場合、フィットされた関数からの従属変数の観測値の偏差は残差です。[...]ただし、回帰プロセスの動作により、エラー自体が同じように分布していても、(入力変数の)異なるデータポイントでの残差の分布は異なる場合があります。具体的には、誤差が同じように分布する線形回帰では、ドメインの中央にある入力の残差の変動性は、ドメインの端にある残差の変動性よりも高くなります[必要な引用]:線形回帰は、中央よりも良いエンドポイントに適合します。これは、回帰係数のさまざまなデータポイントの影響関数にも反映されます。エンドポイントの影響が大きくなります。

これは直感的に私には理にかなっていますが、それが同等分散性の仮定に矛盾しないことを私はよく理解していません。これは、母集団レベルでは、エラー分散がすべてのレベルで等しくなる可能性があるためです。X しかし、回帰直線をあてはめて誤差分散を推定すると(母集団レベルでの誤差の推定値として残差を使用できるように)、次の条件の残差標準偏差の分布が自動的かつ人工的に作成されます。 Xその残差標準偏差をすべての残差の等しい特異値にする代わりに?つまり、標準化された残差は、(観測不能な)母集団レベルでのみ本当に有用であることを意味しますよね?与えられたサンプルについて、標準化された残差は、すべての値の正確な推定量になる可能性があるためですxi 遠い x¯ 単に回帰モデルが当てはまる方法のためですか?

ただし、そうである場合、予測変数に対してスチューデント化された残差をプロットし、残差の分散が X。当てはめられた回帰直線の場合、残差の分散は、X (スチューデント化された残差の概念とWikipediaからの抜粋が示唆するように)誰もが全体の残差分散の同等性をテストすることを推奨しているというのはどういう意味ですか X 予測子のレベルに対してスチューデント化された残差の散布図を使用する X?私がここで犯している間違いを誰かが指摘できますか?

エラー値と残差値、または母集団とサンプルレベルを混同しますか 私はどこを見ても、なぜこれが矛盾ではないのか(または少なくとも私が理解していないこと)を論じる満足のいく答えを見つけることができませんでした。よろしくお願いします!

回答:


4

私はあなたの混乱を本当に理解していませんが、これを試してみましょう。線形回帰を考える

y=Xβ+ε
エラーあり ε と残差 e:=yXβ^=(IH)y どこ I 単位行列であり、 H:=X(XX)1Xハットマトリックスです。線形モデルが正しく指定されていて、エラーの無条件および条件付き等分散性を含むすべての仮定が満たされているとします。

ながら ε 今紹介した仮定、モデルの残差によってホモスケスティックになります e 条件付きでヘテロスケダスティックである X:それらの分散は Var(e)=σε2(IH)。これは、線形モデルでのOLS推定のアーティファクトです。

ここで、すべての仮定が満たされているかどうか(これが現実的な見方です)がわからないので、それらを確認するとします。おそらく、残差を使用したくなるでしょうe 監視されていないエラーの代わりに ε モデル診断を行う、例えば、条件付きホモスケダスティシティの仮定を評価する ε。残念ながら、条件付きホモスケダスティックε 条件付きで不均一分散に変換されます e上記の分散式から明らかなように。したがって、次の条件付きホモスケダシティについて多くを学ぶことはできません。ε のばらつきを調べることにより eX

しかし、救済策があります。分散歪みを調整することができますe 乗算によるスケーリングを「元に戻す」ことにより (IH)e。これにより、(内部または外部で)スチューデント化された残差が生じます。e~int:=eσ^int1hii または e~ext:=eσ^ext1hii どこ σ^int そして σ^extは、それぞれ誤差分散の内部推定値と外部推定値です。残差のスチューデント化により、残差を、観測されていないモデルエラーと同じレベルの条件付き分散に戻すことができます。ε データポイント全体で均一であり、条件付きの等分散性または異分散性に影響を与えないスケーリングファクターまでです。

これが、スチューデント化残差を使用することが理にかなっている理由です e~ 生の残差の代わりに e モデルエラーの条件付き不均一性を評価するとき ε リグレッサへのwrt X

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.