重回帰の仮定:正規性の仮定は定数分散の仮定とどのように異なりますか?


20

私はこれらが重回帰モデルを使用するための条件であることを読みました:

  1. モデルの残差はほぼ正常です。
  2. 残差の変動性はほぼ一定です
  3. 残差は独立しており、
  4. 各変数は結果に直線的に関連しています。

1と2はどう違うのですか?

ここにあります。

ここに画像の説明を入力してください

したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?


7
私はそれらの順序が間違っていると主張します。重要度の高い順に、4、3、2、1と言います。そのように、各追加の仮定は、最も制限の多い仮定の質問の順序とは対照的に、モデルを使用してより多くの問題を解決することができます。最初です。
マシュードゥルーリー

2
これらの仮定は推論統計に必要です。二乗誤差の合計が最小化されるという仮定は行われません。
デビッドレーン

1
私は、1、3、2、4を意味したと考えています。モデルがまったく有用であるためには少なくとも1を満たす必要があり、モデルが一貫性を保つために3が必要です。 、2は推定を効率的に行うために必要です。つまり、同じ線を推定するためにデータを使用する他のより良い方法はありません。また、推定パラメーターに対して仮説検定を実行するために少なくとも4が必要です。
マシュードゥルーリー


2
自分の図でない場合は、図のソースを教えてください。
ニックコックス

回答:


44

1. 残差の正規分布

信頼区間やp値を取得しようとすると、正規性条件が作用します。

ないガウスマルコフ状態ε|XN(0,σ2In)


ここに画像の説明を入力してください

このプロットは、人口のポイントの分布を青で(人口回帰線をシアンの実線として)、サンプルデータセットに大きな黄色のドットで重ねて表示しようとしています(推定回帰線は黄色の破線としてプロット)。明らかにこれは、各値に無限点があるため、概念的な消費のみです-したがって、平均の周りの値の連続的な分布としての回帰の概念のグラフィカルな図式の離散化です(予測値に対応) 「独立」変数の)リグレッサーまたは説明変数の各指定値で。X=x

シミュレートされた「人口」データで診断Rプロットを実行すると、...

ここに画像の説明を入力してください

X.

典型的なプロットは次のとおりです。

ここに画像の説明を入力してください


概念的には、複数のリグレッサまたは説明変数を導入しても、考え方は変わりません。パッケージのハンズオンチュートリアルは、swirl()重回帰が実際にモデルの残余の説明されていない変動を引き継いで互いに依存変数を回帰するプロセスであるかを理解するのに非常に役立ちます。またはより単純に、単純な線形回帰のベクトル形式

一般的な手法は、1つのリグレッサーを選択し、他のすべての変数をそのリグレッションの残差で置き換えることです。


2. 残差の変動性はほぼ一定です(同相性)

E[εi2|X]=σ2

この条件に違反して問題があります:

異分散性は、OLS推定量に重大な結果をもたらします。OLS推定器は不偏のままですが、推定SEは間違っています。このため、信頼区間と仮説検定は信頼できません。さらに、OLS推定器は青ではなくなりました。


ここに画像の説明を入力してください

このプロットでは、一定のままであるのではなく、リグレッサの値(説明変数)とともに分散が増加しています。この場合、残差は正規分布しますが、この正規分布の分散は説明変数によって変化(増加)します。

「真の」(人口)回帰直線は、最初のプロット(濃い青)の等分散性下の人口回帰直線に対して変化しませんが、推定値がより不確かになることは直感的に明らかです。

データセットの診断プロットは...

ここに画像の説明を入力してください

これは、「ヘビーテール」分布に対応しますこれは、すべての「サイドバイサイド」垂直ガウスプロットを望遠鏡で単一のプロットに望遠鏡で表示することです。


@Glen_b「...この2つの違いを完全に網羅しているのは、ホモスケダスティクスですが、正常ではないことも考慮します。」

ここに画像の説明を入力してください

残差は大きく歪んでおり、説明変数の値とともに分散が増加します。

これらは診断プロットになります...

ここに画像の説明を入力してください

マークされた右スキューネスに対応します。

ループを閉じるために、非ガウス分布の誤差を持つホモスケステッドモデルの歪度も確認します。

ここに画像の説明を入力してください

診断プロットとして...

ここに画像の説明を入力してください


2
どうもありがとうございました。視覚化ツールとして利用される人口の全体的な離散化を埋める必要があると感じました。私はコードを投稿するかもしれませんが、私はある程度の創造的な数学があったのでためらっています:
アントニ・パレラダ

3
両方を満足するプロットを表示し、その後、正常ではあるがホモスケスチックではないことを示すことによる、正常なエラーとホモセダスティックなエラーの区別の図は優れています。この2つの違いを完全にカバーすることは、ホモスケダスティクスではあるが正常ではないことも考慮すると思います。[このようなイラストを追加することはお勧めしませんが、前提を検討するときに人々が心に留めておくと便利な第3の手段です。]
Glen_b -Reinstate Monica

7

それはOPのせいではありませんが、私はこのような誤った情報を読むのに疲れ始めています。

私はこれらが重回帰モデルを使用するための条件であることを読みました:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

「重回帰モデル」は、ある変数を他の変数の関数として表現できることを宣言する単なるラベルです。

真の誤差項もモデルの残差も特にほとんど何も必要ありません-残差が正常に見える場合、これはその後の統計的推論に適しています。

誤差項の変動性(分散)はほぼ一定である必要はありません。そうでない場合は、今日ではかなり簡単に処理できる異分散性を持つモデルがあります。

残差はいずれの場合でも独立ではありません。それぞれがサンプル全体の関数であるためです。真の誤差項は、彼らが我々が不均一よりも難しいが、度まで扱うことができ、自己相関を持つモデルを、持っていない-ifの独立である必要はありません。

各変数は、結果に直線的に関連する必要はありません。実際、「線形」回帰と「非線形」回帰の区別は、変数間の関係とは関係ありませんが、未知の係数がどのように関係に入るかについてです。

言えることは、最初の3つが成り立ち、4つ目が適切に記述されている場合、「古典的な標準線形回帰モデル」を取得するということです。


3
XβXβX

2
そして、エラー項の条件付き期待値がゼロであるという絶対に基本的な仮定がありません!
マシューガン

1
@MatthewGunnまあ、...これは、このモデルで何をしているのかについて非常に大きな議論を開きます。「決定論的/工学的」見方をとる場合、この仮定が必要です。特定のリグレッサに関して条件付き期待関数を推定したい場合、条件は自動的に満たされます(または少なくともその弱い形式である直交性)。
アレコスパパドプロス

1
@AlecosPapadopoulosはい、ある意味で、通常の最小二乗は常に何かの推定値を提供します!しかし、それはあなたが望むものではないかもしれません。OPが特定のリグレッサに関して単純に線形の条件付き期待関数を必要とする場合、条件が自動的に仮定されることに同意します。しかし、OPが何らかのパラメーターを推定しようとしている場合、直交性条件を正当化することが重要です!
マシューガン

@MatthewGunn確かに、これは確かにそうです。
アレコスパパドプロス

3

アントニ・パレラダは、素晴らしいグラフィカルなイラストで完璧な答えを出しました。

1つのコメントを追加して、2つのステートメントの違いを要約したいだけです。

  1. モデルの残差はほぼ正常です

  2. 残差の変動性はほぼ一定です

  • ステートメント1は、残差の「形状」「ベル形曲線」であることを示しています。
  • ステートメント2 は、アントニ・パレラダのプロット3 で、「形状」の広がりを改善しています(一定)。3つの鐘形の曲線がありますが、それらは異なる広がりです。

1

回帰の仮定の単一の一意のセットはありませんが、そこにはいくつかのバリエーションがあります。これらの仮定のセットのいくつかは、他のものよりも厳密、すなわち狭いです。また、ほとんどの場合、あなたは必要とせず、多くの場合、実際に分布が正規であると仮定することはできません。

あなたが引用した仮定は最も厳しいものですが、それでも不必要にゆるい言葉で定式化されています。たとえば、正確にはほぼ何ですか?また、仮定を課すのは残差ではなく、エラーです。残差はエラーの推定値であり、観測できません。これは、あなたが悪いソースから引用していることを教えてくれます。それを捨てる。

あなたの質問に対する簡単な答えは、エラーについてスチューデントt分布などの分布を考慮する場合(答えに正しい用語を使用します)、エラーが「ほぼ一定の」変動をどのように持つかを見ることができるということです。正規分布からではなく、「ほぼ一定」の分散をどのように持つかは正規分布を必要としません。言い換えれば、いいえ、追加の要件なしに、ある前提を別の前提から考案することはできません。

yi=Xiβ+εiεiN(0,σ2)
  1. 「モデルの残差はほぼ正規」-これは、を使用したという事実ですN(.)
  2. σεi
  3. NX
  4. y=Xβ

したがって、この方法ですべての仮定を1つまたは2つの方程式にまとめると、それらはすべて互いに依存しているように見える場合がありますが、これは正しくありません。次にこれを実演します。

例1

yi=Xiβ+εiεitν
ν

例2

yi=Xiβ+εiεiN(0,σ2i)
i

1

私は議論に新しい次元を追加し、より一般的なものにしようとしました。あまりにも初歩的だった場合すみません。

回帰モデルは、統計関係の2つの重要な要素を表す正式な手段です。

  1. YX
  2. 統計的関係の曲線の周りの点散布

Y

それを仮定することにより:

  1. YX

  2. X

Y

YX

YXYX

出典:応用線形統計モデル、KNNL

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 パラメータです

ϵN(O,σ2)

i

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1と2はどう違うのですか?

質問に来る

あなたが述べた最初と2番目の仮定は、平均がゼロで分散が一定の正規性の同じ仮定の2つの部分です。質問は、2つの仮定の違いではなく、通常の誤差回帰モデルの2つの仮定の意味として何を提起すべきかと思います。私は、点の分布の仮定とその変動性の仮定の間の違いを見つけようとしているので、リンゴとオレンジを比較するように見えるからだと言います。変動は分布の特性です。したがって、2つの仮定の意味合いについて、より関連性のある質問に答えようとします。

正規性の仮定の下で最尤推定(MLEは)は、最小二乗推定器と同様であり、MLEはであるという特性楽しむUMVUEそれらは全て推定量のうちの最小分散を有する手段。

β0β1t


1
これは、回帰の優れた説明です。しかし、このスレッドの特定の質問にどのように答えますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.