例による回帰分析によると、残差は応答と予測値の差であり、すべての残差には異なる分散があると言われているため、標準化された残差を考慮する必要があります。
しかし、分散は値のグループに対するものです。単一の値にどのように分散があるのでしょうか。
例による回帰分析によると、残差は応答と予測値の差であり、すべての残差には異なる分散があると言われているため、標準化された残差を考慮する必要があります。
しかし、分散は値のグループに対するものです。単一の値にどのように分散があるのでしょうか。
回答:
確率分布からの無作為抽出から生じた個々の数値(残差など)は、ランダム変数ではなく実現値であると言えます。同様に、を使用してデータとモデルフィットから計算された残差のセットは、実現値のセットであると言います。数字のセットはされてもよい緩く独立の基礎となる分布から引くとして概念〜。(ただし、残念ながら、ここにはさらに複雑な点がいくつかあります。たとえば、実際にはE = Y - Y ε N(μ 、σ 2)N E Σ E I = 0 Σ X I E I = 0残差、と 2つの条件を満たす必要がある ため、独立した情報です。
ここで、いくつかの数値セットが与えられた場合、それらが残差であろうとなかろうと、それらが分散を持っていることは確かに本当ですが、これは興味深いことではありません。私たちが気にしているのは、データ生成プロセスについて(たとえば、人口分布の分散を推定するために)何かを言えることです。前の式を使用して、を残りの自由度で置き換えることによって近似を与えることができますが、これは適切な近似ではない場合があります。これは非常に非常に高速に複雑になることができますトピックですが、考えられる理由のカップルは、可能性が不均一(すなわち、の異なるレベルで人口が異なるの分散という)、および存在外れ値N X(つまり、特定の残差は、完全に別の母集団から抽出されます)。ほぼ間違いなく、実際には、外れ値が引き出された母集団の分散を推定することはできませんが、それにもかかわらず、理論的には、分散があります。私はこれらの線に沿った何かが作者が心に描いていたものだと思うが、私はその本を読んだことがないことに注意すべきである。
更新: 質問を読み直すと、引用はポイントの値が近似回帰直線に影響を与える方法を参照している可能性があるため、そのポイントに関連付けられた残差の値を参照している可能性があります。ここで把握する重要なアイデアは、てこ比です。これらのトピックについては、ここでの回答で説明します: plot.lm()の解釈。