回帰：なぜ条件とする残差ではなく、全体の残差の正規性をテストするのですか？

線形回帰では、エラーはyの予測値を条件として、正規分布であると想定されていることを理解しています。次に、残差をエラーの一種のプロキシと見なします。

多くの場合、次のような出力を生成することをお勧めします。ただし、各データポイントの残差を取得し、それを1つのプロットにまとめるポイントが何であるかは理解できません。

yの各予測値に通常の残差があるかどうかを適切に評価するのに十分なデータポイントがありそうにないことを理解しています。

ただし、通常の残差が全体として別個のものであるかどうか、およびyの各予測値での通常の残差のモデル仮定に明確に関連しない問題ではないですか？yの予測値ごとに通常の残差があり、全体として残差が非常に非正規であるのではないでしょうか。

regression assumptions

— user1205901-モニカの復活
ソース

概念にはいくつかのメリットがあるかもしれません-おそらくブートストラップは、（残差の複製を取得するために）ここに助けることができる

— probabilityislogic

線形回帰において、エラーは正規分布であると想定され、yの予測値（ある場合）を条件として参照を与えることはできますか？

— リチャードハーディ2016年

質問を投稿したとき、特定の出典はありませんでしたが、「モデル化の仮定は、応答変数が通常、回帰線（条件付き平均の推定値）の周りに一定の分散で分布しているということです」ここに。私がこれについて間違っているなら、さらなるフィードバックを歓迎します。

— user1205901-2016年

回答:

yの予測値ごとに通常の残差があり、全体として残差が非常に非正規であるのではないでしょうか。

いいえ-少なくとも、エラーの分散が一定であるという標準的な仮定の下ではありません。

全体の残差の分布は、正規分布の混合（各レベルに1つ）と考えることができます。仮定により、これらの正規分布はすべて同じ平均（0）と同じ分散を持っています。したがって、この正規分布の混合の分布は、それ自体が単なる正規分布です。 $\hat{y}$

これから、私たちは少し三段論法を形成することができます。予測子Xの値が与えられた個々の分布が正規である（そしてそれらの分散が等しい）場合、全体の残差の分布は正規です。したがって、全体の残差の分布が明らかに正規ではないことを観察した場合、これは、Xが与えられた分布が等分散で正規でないことを意味します。これは、標準的な仮定の違反です。

— ジェイクウェストフォール
ソース

@Jake_Westfall、それについてはよくわかりません。ジョイントガウス分布を持つ変数の有限線形結合にはガウス分布があることがわかっています。しかし、無限の組み合わせはどうでしょうか？言い換えると、 .pを考えると、なぜ常に正常なのでしょうか？それは依存します。、または条件付けは実際には何も変更しないことに注意してください。

p (ϵ) = \int p (ϵ | x) p (x) d x

$p(\epsilon)=\int p(\epsilon|x)p(x)dx$

p (ϵ | x)

$p(\epsilon|x)$

p (ϵ)

$p(\epsilon)$

p (x)

$p(x)$

\hat{y} = β_{0} + β_{1} X

$\hat{y}=\beta_0+\beta_1 X$

\hat{y}

$\hat{y}$

X

$X$

— DeltaIV

非通常の限界値では非通常の条件文を「拒否」することができますが、通常の限界値では通常の条件文を「受け入れる」ことができないと言うのは適切ですか？

— シャドウトーカー2016年

@DeltaIV、正規分布には、平均と分散の2つのパラメーターしかありません。エラーが1）分布正規、2）平均ゼロ、3）分散定数の場合、混同するものは何もありません。あなたの表記ではです。したがって、は積分から除算され、積分は1に積分されて消え、法線だけが残ります。のp-混合物はです。

p (ϵ | x) = p (ϵ)

$p(\epsilon|x)=p(\epsilon)$

p (ϵ)

$p(\epsilon)$

N (0, σ^{2})

$N(0,\sigma^2)$

N (0, σ^{2})

$N(0,\sigma^2)$

— ビル・

@Billそれが実際にここで必要とされる本質的なポイントかもしれない：。答えの言い方に埋もれている

ε | X \sim N (0, σ^{2}) \Rightarrow ε \sim N (0, σ^{2})

$\varepsilon\ |\ X \sim N(0,\sigma^2) \Rightarrow \varepsilon \sim N(0,\sigma^2)$

— シャドウトーカー2016

@ssdecontrol答えから：「予測子Xの値を与えられた個々の分布が正規である（そしてそれらの分散が等しい）場合、全体の残差の分布は正規です。」私がどれほど明確であるかわかりませんか？

— Jake Westfall、2016年

言われているエラーが等分散性で連続的に相関がない場合、yの通常の最小二乗（OLS）は線形不偏推定量のクラスで最適です。等分散残差に関して、残差の分散は、x軸上の残差の大きさの変化をどこで測定するかに関係なく、同じです。たとえば、測定値の誤差がy値の増加に比例して増加するとします。次に、回帰を実行する前に、それらのy値の対数をとることができます。これを行うと、対数を取ることなく比例誤差モデルをフィッティングする場合と比較して、フィッティングの品質が向上します。一般に、等分散性を得るには、y軸またはx軸のデータ、対数、平方根または平方根の逆数を取るか、指数関数を適用する必要があります。これの代わりに、重み付け関数を使用することもできます。 $\frac{(y-\text{model})^2}{y^2}$ は、最小化するよりもうまく機能します。 $(y-\text{model})^2$

そのことを言ったとしても、残差をより均一にすることは、それらをより正規分布にすることはしばしば起こりますが、しばしば、均一特性がより重要です。後者は、回帰を実行する理由によって異なります。たとえば、データの平方根が対数を取るよりも正規分布しているが、誤差が比例型である場合、対数のt検定は、母集団または測定値の違いを検出するのに役立ちますが、期待される結果を見つけるのに役立ちます。値データの平方根のみを使用する必要があります。これは、データの平方根のみが対称分布であるため、平均、モード、中央値が等しいことが期待されるためです。

さらに、y軸の値の最小予測誤差を与える答えを望まないことがよくあります。これらの回帰には大きな偏りがある可能性があります。たとえば、xのエラーを最小化するために後退したい場合があります。あるいは、yとxの関係を明らかにしたい場合もありますが、これは通常の回帰問題ではありません。次に、xとyの最小エラー回帰の間の最も単純な妥協点として、Theil、つまり中央勾配、回帰を使用します。または、反復測定の分散がxとyの両方について何であるかがわかっている場合、デミング回帰を使用できます。通常の回帰結果に対してひどいことをする異常値がはるかに大きい場合、それらの回帰はより優れています。また、中央値勾配回帰では、残差が正規分布しているかどうかはほとんど問題になりません。

ところで、残差の正規性は、必ずしも有用な線形回帰情報を提供するわけではありません。たとえば、2つの独立した測定を繰り返し測定するとします。独立性があるため、予想される相関はゼロであり、回帰直線の傾きは、有用な傾きのない任意の乱数になります。位置の推定値、つまり平均（または中央値（1つのピークを持つコーシーまたはベータ分布）または最も一般的には母集団の期待値）を確立するために測定を繰り返し、そこからxの分散と分散を計算しますyで、デミング回帰などに使用できます。さらに、元の母集団が正常である場合、重ね合わせが同じ平均で正常であるという仮定は、有用な線形回帰を引き起こさない。これをさらに進めるには、次に、初期パラメーターを変更して、異なるモンテカルロxおよびy値関数生成ロケーションで新しい測定を確立し、そのデータを最初の実行と照合するとします。次に、残差はすべてのx値でy方向に正常ですが、x方向では、ヒストグラムに2つのピークがあり、OLSの仮定と一致しません。 x軸に等間隔のデータがありません。ただし、照合されたデータの回帰には明確な勾配と切片が含まれるようになりましたが、以前はそうではありませんでした。さらに、実際には繰り返しサンプリングで2点のみをテストしているため、直線性をテストすることはできません。実際、同じ理由で相関係数は信頼できる測定にはなりません。

逆に、エラーはリグレッサを条件とする正規分布であるとさらに想定される場合があります。この仮定はOLSメソッドの有効性には必要ありませんが、特定の追加の有限サンプルプロパティが確立された場合（特に、仮説テストの領域で）確立できますが、ここを参照してください。では、いつOLSは正しい回帰ですか？たとえば、毎日の終値の株価を正確に同時に測定する場合、t軸（x軸と考える）の分散はありません。ただし、最後の取引（決済）の時間はランダムに分散され、変数間の関係を発見する回帰は両方の分散を組み込む必要があります。そのような状況では、yのOLSはy値の最小の誤差のみを推定します。これは、決済の時間自体も予測する必要があるため、決済の取引価格を推定するのに適さない選択肢です。さらに、正規分布誤差はガンマ価格モデルよりも劣る場合があります。

どうしたの？まあ、一部の株は毎分数回取引され、他の株は毎日または毎週さえ取引されないため、かなり大きな数値の違いを生む可能性があります。したがって、それは私たちが望む情報に依存します。明日の取引終了時に市場がどのように振る舞うかを尋ねたい場合、これはOLSの「タイプ」の質問ですが、答えは非線形の非正規残差である可能性があり、外挿の正しい曲率を確立するために、微分フィット（および/またはより高いモーメント）と一致する形状係数を持つフィット関数が必要です。（たとえば、3次スプラインを使用して、関数だけでなくデリバティブも当てはめることができるため、めったに探索されない場合でも、デリバティブ合意の概念は驚くべきものではありません。）お金を稼ぐかどうかを知りたい場合特定の株式では、問題は二変量であるため、OLSを使用しません。

— カール
ソース

正規性は十分ですが、有効な推論には必要ではないと思いますか？特に異分散性を具体的にテストしないのはなぜですか？確かに、残差の裾が重い（たとえば）限界分布は、必ずしも条件付き正規性の仮定が間違っていることを意味するのではありませんか？しかし、裾が重い残差は、設計上、残差の正規性のテストに失敗します。

— シャドウトーカー2016

t検定では、等分散性がより重要になることがよくあります。外れ値は1.359 SD >> IQRになるため、t検定の能力が低下します。次に、再パラメーター化またはウィルコクソン検定のいずれかを試してください。後者は、分布のタイプや不均一性の程度に関係なく、ほとんどの状況で（r> 0.9999の場合はそうでない場合があります）機能します。実際、いくつかの同様のパラメーターをテストしている場合、ウィルコクソンまたはt検定のどちらかが低確率と高確率を整理するためにうまく機能するため、データ自体がより有用なものを宣言することがよくあります。

— カール

1.349 SD >> IQRにします。1.349は、1つの四分位範囲（IQR）に対して正規分布が持つSDの数です。コーシー分布や2自由度のスチューデントのtのような一部の分布にはSDがなく、外れ値はそれを殺しますが、IQRはあり、位置の検定としてWilcoxonまたは他のノンパラメトリック検定を使用します。

— カール

さらに考えてみると（回答の新しい資料を参照）、y軸残差の正規性は良いものですが、不十分です。

— カール

重い裾の分布は、回帰方程式に恐ろしいことをさせます。例えば、データセット内の1つが調べ可能なすべてのスロープは、一つの典型的勾配のコーシー分布を取得する場合、AKA Student's- T 1つの自由度を有します。コーシー分布の場合、瞬間はありません。つまり、平均値と標準偏差を計算でき、データが多いほど、平均値と標準偏差が不安定になります。コーシー分布の期待値は中央値であり、平均を計算するには、極値を検閲する必要があります。

— カール