回帰分析で標準化された残差を理解するにはどうすればよいですか？

例による回帰分析によると、残差は応答と予測値の差であり、すべての残差には異なる分散があると言われているため、標準化された残差を考慮する必要があります。

しかし、分散は値のグループに対するものです。単一の値にどのように分散があるのでしょうか。

regression residuals

— ccshao
ソース

教科書を直接引用するか、または（オンラインで入手できる場合）リンクを提供すると役立ちます。1つの単語でも順序が正しくなかったり、文脈から外れたりすると、多くのものが失われる可能性があります。（たとえば、残差は通常、予測と応答の差として定義され、その逆ではありません。）

— whuber

単一確率変数には分散があります。残差は確率変数です-それらはデータの関数です。したがって、単一の残差（標準化されているかどうかにかかわらず）には分散があります。

— ゲスト

#whuber教科書は、89ページの「Regression.Analysis.by.Example」です。残差の種類について議論しました。通常の残差は応答予測です。@guest「単一のランダム変数には分散があります」、これは私が理解できないことです、変数はサンプルのプロパティですよね？なぜサンプルの1つの値（残差など）に分散があるのですか？

— ccshao 2012年

この本には著者がいますか？これにより、通常は見つけやすくなります。標本分散と母集団分散が混乱していると思います。実験が行われる前は、残差は不明です。それは応答の関数であるため、応答はランダムであり、残差もランダムです。残差の分散について話すとき、基礎となる確率変数の分散について話します。

— MånsT

ご不便をおかけして申し訳ございませんが、著者はSAMPRIT CHATTEFUEEとALI S. HADI、回帰分析（例による回帰分析）、第4版です。

— ccshao

確率分布からの無作為抽出から生じた個々の数値（残差など）は、ランダム変数ではなく実現値であると言えます。同様に、を使用してデータとモデルフィットから計算された残差のセットは、実現値のセットであると言います。数字のセットはされてもよい緩く独立の基礎となる分布から引くとして概念〜。（ただし、残念ながら、ここにはさらに複雑な点がいくつかあります。たとえば、実際には $N$ $\bf{e}=\bf{y}-\bf{\hat{y}}$ $\epsilon$ $\mathcal{N}(\mu,\sigma^2)$ $N$ 残差、と 2つの条件を満たす必要があるため、独立した情報です。 $\bf{e}$ $\sum e_i=0$ $\sum x_ie_i=0$

ここで、いくつかの数値セットが与えられた場合、それらが残差であろうとなかろうと、それらが分散を持っていることは確かに本当ですが、これは興味深いことではありません。私たちが気にしているのは、データ生成プロセスについて（たとえば、人口分布の分散を推定するために）何かを言えることです。前の式を使用して、を残りの自由度で置き換えることによって近似を与えることができますが、これは適切な近似ではない場合があります。これは非常に非常に高速に複雑になることができますトピックですが、考えられる理由のカップルは、可能性が不均一（すなわち、の異なるレベルで人口が異なるの分散という）、および存在外れ値 $\sum(e_i-\bar{e})^2/N$ $N$ $x$ （つまり、特定の残差は、完全に別の母集団から抽出されます）。ほぼ間違いなく、実際には、外れ値が引き出された母集団の分散を推定することはできませんが、それにもかかわらず、理論的には、分散があります。私はこれらの線に沿った何かが作者が心に描いていたものだと思うが、私はその本を読んだことがないことに注意すべきである。

更新： 質問を読み直すと、引用はポイントの値が近似回帰直線に影響を与える方法を参照している可能性があるため、そのポイントに関連付けられた残差の値を参照している可能性があります。ここで把握する重要なアイデアは、てこ比です。これらのトピックについては、ここでの回答で説明します： plot.lm（）の解釈。 $x$

— gung-モニカの回復
ソース

ありがとう！レバレッジは、私が以前に理解していないものです。xがavg（x）に近いため、分散が大きいデータには、回帰効果がないか、ほとんどありません。

— ccshao 2017年