仮定が満たされない場合、回帰モデルはどの程度間違っていますか？

回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか：

残差が等分散でない場合はどうなりますか？残差対残差対適合プロットでパターンが増加または減少する場合。
残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか？Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。
1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか？

私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです：

正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか？
偏差はどの程度許容されますか、それともまったく許容されますか？
正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合（Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合）、または役に立たない場合（同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか？

— SpeedBirdNine
ソース

タイトルに対する答えは「はい」だけだと思います。

— トーマスクレバーグ

@ThomasCleberg興味深い答え。それは、あなたが「お元気ですか？」と聞かれたときにあなたが言うことでもありますか？:)

— JohnK

いいえ、でも、もし彼らが私が生きているかどうか尋ねたら。:)

— トーマスクレバーグ

自問する基本的な質問：「回帰モデルを何に使用しますか？」

— フローリス

残差が等分散でない場合はどうなりますか？残差対残差対適合プロットでパターンが増加または減少する場合。

エラー項がホモセダスティックではない場合（観測不能なエラー項のプロキシとして残差を使用します）、OLS推定器は依然として一貫性があり、偏りがありませんが、線形推定器のクラスでは最も効率的ではありません。現在、この特性を享受しているのはGLS推定器です。

残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか？Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。

正規性は、ガウスマルコフの定理では必要ありません。OLS推定器はまだ青ですが、正規性がないと、少なくとも有限のサンプルサイズに対して、推論、つまり仮説検定と信頼区間を行うことが困難になります。ただし、ブートストラップはまだあります。

OLS推定器には穏やかな規則性条件下で制限された正規分布があるため、漸近的にはこれは問題ではありません。

1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか？

私の知る限り、予測変数は固定されているとみなされるか、回帰が条件付きです。これにより、非正規性の影響が制限されます。

正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか？

R-2乗は、モデルによって説明される分散の割合です。それは正規性の仮定を必要とせず、それにもかかわらず、適合度の尺度です。ただし、部分的なF検定に使用する場合は、まったく別の話です。

偏差はどの程度許容されますか、それともまったく許容されますか？

正常からの逸脱、ということですね。私が言ったように、正常性がないと推論は難しくなりますが、不可能ではないため（ブートストラップ！）

正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合（Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合）、または役に立たない場合（同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか？

要するに、すべてのガウス・マルコフの仮定に加えて正規性がある場合、OLS推定量はBest Unbiased（BUE）、つまり推定量のすべてのクラスで最も効率的です-Cramer -Rao下限が達成されます。これはもちろん望ましいことですが、起こらなければ世界の終わりではありません。上記の発言が適用されます。

変換に関しては、応答の分布が正常に近くなる可能性がありますが、その後の解釈は簡単ではない可能性があることに留意してください。

これらは、あなたの質問に対する短い答えです。あなたは、非正規性の意味に特に関心を持っているようです。全体として、私はそれが人々に信じられているほど壊滅的ではなく、回避策があると言うでしょう。私が含めた2つの参考文献は、さらに読むための良い出発点であり、最初の参考文献は理論的な性質のものです。

参照：

林文夫。：「計量経済学」、プリンストン大学出版局、2000

Kutner、Michael H.、他「線形統計モデルの適用」、McGraw-Hill Irwin、2005年。

— JohnK
ソース

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

y

$\mathbf{y}$

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

@DeltaIV「理想モデル」とはどういう意味ですか？パラメーターが線形であるのは、真のモデルです。ただし、これは、推定値として応答の線形関数のみを考慮する場合に制限されません。GMは、応答の線形関数に注意を向けると、OLSは追加の仮定の下で青になると述べています。正規性を仮定すると、考慮している応答の関数に関係なく、推定器がバイアスされていないことを前提に、OLSを上回ることができません。

— JohnK

Y_{i}

$Y_i$

β_{i}

$\beta_i$