診断は残差に基づいているのはなぜですか?


11

単純な線形回帰では、推論を行うことができるように特定の仮定が満たされているかどうかを確認することがよくあります(たとえば、残差は正規分布です)。

当てはめられた値が正規分布しているかどうかをチェックすることにより、仮定をチェックすることは妥当ですか?

回答:


19

診断は残差に基づいているのはなぜですか?

仮定の多くはの条件付き分布に関連しており、無条件分布には関連していないためです。これは、残差から推定する誤差の仮定に相当します。Y

単純な線形回帰では、推論を行うことができるように特定の仮定が満たされているかどうかを検証することがよくあります(たとえば、残差は正規分布です)。

実際の正規性の仮定は、残差ではなく、誤差の項です。あなたが持っているものに最も近いものは残差です、それが私たちがそれらをチェックする理由です。

フィットされた値が正規分布であるかどうかをチェックすることにより、仮定をチェックすることは妥当ですか?

いいえ。フィットされた値の分布は、のパターンによって異なります。それは仮定についてあまり何も教えてくれません。x

たとえば、シミュレーションデータに対して回帰を実行したところ、すべての仮定が正しく指定されました。たとえば、エラーの正常性は満たされました。フィットされた値の正規性を確認しようとすると、次のようになります。

フィッティングの正常性診断

それらは明らかに正常ではありません。実際、彼らは二峰性に見えます。どうして?まあ、フィット値の分布はのパターンに依存するためです。エラーは正常でしたが、フィットされた値はほとんど何でもかまいません。x

人々がよくチェックするもう1つのことは(実際にはもっと頻繁に)、の正規性ですが、無条件にです。繰り返しますが、これは sのパターンに依存するため、実際の仮定についてはあまり説明しません。繰り返しになりますが、すべての仮定が成り立ついくつかのデータを生成しました。無条件の値の正規性を確認しようとすると、次のようになります。yxxy

生のY値の正規性診断

繰り返しますが、ここで見られる非正規性(yはスキュー)は、の条件付き正規性とは関係ありません。y

実際、私はこの隣に、この区別(条件付き分布と無条件分布の間)を説明するテキストがあります。つまり、初期の章で、の分布を見ただけでは何ができないのかを説明しています。右とその後の章で繰り返しチェックの分布を見ることによって、正規性の仮定値の影響を考慮せずにさんを仮定の妥当性を評価するために(それは通常ありません別のものは、ただ見ていますその評価を行うためのヒストグラムですが、それはまったく別の問題です)。Yyyx


仮定は何ですか、どのようにチェックし、いつ作成する必要がありますか?

  • 固定として「sが(エラーなしで観察された)処理されてもよいです。私たちは通常、これを診断的にチェックしようとはしません(しかし、それが真実であるかどうかについては良い考えが必要です)。x

  • とモデル内のの関係が正しく指定されている(たとえば、線形)。最適な線形モデルを差し引くと、残差の平均と関係にパターンが残っていないはずです。E(Y)xx

  • 一定の分散(すなわち、に依存しないのエラーの広がりが一定であり、それはに対して残差の広がりを見てチェックすることがあります。、またはいくつかの機能をチェックすることにより、に対する二乗残差の平均と、平均の変化のチェック(たとえば、対数や平方根などの関数。Rは二乗残差の4番目の根を使用)。Var(Y|x)xxx

  • エラーの条件付き独立/独立。依存関係の特定の形式をチェックできます(たとえば、シリアル相関)。依存の形が予想できない場合は、確認するのが少し難しいです。

  • 正規性の条件付き分布/エラーの正規性。たとえば、残差のQQプロットを行うことで確認できます。Y

(実際には、加法誤差、平均誤差がゼロであるなど、私が言及しなかった他のいくつかの仮定があります。)

最小二乗線の近似を推定することだけに関心があり、標準誤差などに関心がない場合は、これらの仮定のほとんどを行う必要はありません。たとえば、エラーの分布は推論(テストと間隔)に影響し、推定の効率に影響を与える可能性がありますが、LSラインは、たとえば最良の線形不偏などです。したがって、分布が非常に非正規であり、すべての線形推定量が悪い場合を除き、誤差項に関する仮定が成り立たなくても、必ずしもそれほど問題にはなりません。


答えに図をいくつか追加しました。
Glen_b-2013

2
これは素晴らしい答えです。さらに必要な場合は、ここで多少似た領域を取り上げます。残差は通常は分布しているがYは分布していない場合はどうなりますか?
gung-モニカを復活

@gung最初にリンクしなかったので自分を蹴っている。
Glen_b-2013

1
@グレン:非常に良い気質。教科書やインターネット上の多くのリソースのトピックがあまりよく扱われていないため、長い間同じように混乱していました。一方、特に時系列のコンテキストでは、ほとんどの場合、Yの無条件分布を調べて、条件付き分布のモデルを推定します。その背後に理論的な推論はありますか?私は質問として、それを頼むことを試みたが、私はきちんとフレーズ、それをできなかったと思う:stats.stackexchange.com/questions/74886/...
Cagdas Ozgenc

@CagdasOzgencモデルを作成する前に簡単に実行できるので、それを実行できると考えることができます。そのリンクされた質問であなたが持っている答えは、投稿されたときの私への良い答えのようでした。
Glen_b-2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.