スチューデント化された残差について読みましたが、予測子の特定の値を条件として、さまざまな残差分散の考え方が理解できません。 (スチューデント化された残差の概念によって暗示されるように)は、単一の予測子変数を使用する線形回帰モデルにおける等分散性の仮定と本質的に矛盾していません。
それは私の教科書で、等分散性の仮定は、 (従属変数)条件付き (独立予測変数の特定の実現)は、この予測変数の値の範囲全体で一定です。この条件付き分散は、残差変数の条件付き分散にも等しいと言います 与えられた 。私の理解では、これは人口レベルでの発言です。まとめると、次のようになります。
後でこの本は、従属変数の外れ値の検出を扱い、標準化およびスチューデント化された残差の使用を提案しています。標準化された残差は個々の残差です 推定標準偏差で割った 母集団の残差変数の。標準化された残差の場合、各残差 したがって、同じ定数値を使用して標準化されます 等分散性を仮定できる場合:
。
ただし、次の段落では、スチューデント化された残差が導入されています。本は言う: "残差の推定の精度が距離とともに増加することを示すことができます その平均から 。スチューデント化された残差の場合、残差はその推定標準誤差全体ではなく、その場所での残差の推定標準偏差で除算されます。。この標準偏差は、次の式から取得できます。
と (この単純な場合:単数)予測子のレバレッジスコア 。したがって、この場合、残差はすべて同じ定数値で除算されるのではなく(標準化された残差の場合のように)、代わりにてこ比の値に依存する残差標準誤差の分布があるように見えます。このサイトの他の質問で説明されているように、これらのレバレッジ値は予測変数の両端で大きくなります。ウィキペディア(https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions)には次のように書かれています:
回帰分析では、エラーと残差の区別は微妙で重要であり、スチューデント化された残差の概念につながります。独立変数を従属変数に関連付ける観測できない関数(たとえば、線)がある場合、この関数からの従属変数の観測値の偏差は観測できないエラーです。一部のデータに対して回帰を実行する場合、フィットされた関数からの従属変数の観測値の偏差は残差です。[...]ただし、回帰プロセスの動作により、エラー自体が同じように分布していても、(入力変数の)異なるデータポイントでの残差の分布は異なる場合があります。具体的には、誤差が同じように分布する線形回帰では、ドメインの中央にある入力の残差の変動性は、ドメインの端にある残差の変動性よりも高くなります[必要な引用]:線形回帰は、中央よりも良いエンドポイントに適合します。これは、回帰係数のさまざまなデータポイントの影響関数にも反映されます。エンドポイントの影響が大きくなります。
これは直感的に私には理にかなっていますが、それが同等分散性の仮定に矛盾しないことを私はよく理解していません。これは、母集団レベルでは、エラー分散がすべてのレベルで等しくなる可能性があるためです。 しかし、回帰直線をあてはめて誤差分散を推定すると(母集団レベルでの誤差の推定値として残差を使用できるように)、次の条件の残差標準偏差の分布が自動的かつ人工的に作成されます。 その残差標準偏差をすべての残差の等しい特異値にする代わりに?つまり、標準化された残差は、(観測不能な)母集団レベルでのみ本当に有用であることを意味しますよね?与えられたサンプルについて、標準化された残差は、すべての値の正確な推定量になる可能性があるためです 遠い 単に回帰モデルが当てはまる方法のためですか?
ただし、そうである場合、予測変数に対してスチューデント化された残差をプロットし、残差の分散が 。当てはめられた回帰直線の場合、残差の分散は、 (スチューデント化された残差の概念とWikipediaからの抜粋が示唆するように)誰もが全体の残差分散の同等性をテストすることを推奨しているというのはどういう意味ですか 予測子のレベルに対してスチューデント化された残差の散布図を使用する ?私がここで犯している間違いを誰かが指摘できますか?
エラー値と残差値、または母集団とサンプルレベルを混同しますか 私はどこを見ても、なぜこれが矛盾ではないのか(または少なくとも私が理解していないこと)を論じる満足のいく答えを見つけることができませんでした。よろしくお願いします!