私はこれらが重回帰モデルを使用するための条件であることを読みました:
- モデルの残差はほぼ正常です。
- 残差の変動性はほぼ一定です
- 残差は独立しており、
- 各変数は結果に直線的に関連しています。
1と2はどう違うのですか?
ここにあります。
したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?
私はこれらが重回帰モデルを使用するための条件であることを読みました:
1と2はどう違うのですか?
ここにあります。
したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?
回答:
信頼区間やp値を取得しようとすると、正規性条件が作用します。
ないガウスマルコフ状態。
このプロットは、人口のポイントの分布を青で(人口回帰線をシアンの実線として)、サンプルデータセットに大きな黄色のドットで重ねて表示しようとしています(推定回帰線は黄色の破線としてプロット)。明らかにこれは、各値に無限点があるため、概念的な消費のみです-したがって、平均の周りの値の連続的な分布としての回帰の概念のグラフィカルな図式の離散化です(予測値に対応) 「独立」変数の)リグレッサーまたは説明変数の各指定値で。
シミュレートされた「人口」データで診断Rプロットを実行すると、...
典型的なプロットは次のとおりです。
概念的には、複数のリグレッサまたは説明変数を導入しても、考え方は変わりません。パッケージのハンズオンチュートリアルは、swirl()
重回帰が実際にモデルの残余の説明されていない変動を引き継いで互いに依存変数を回帰するプロセスであるかを理解するのに非常に役立ちます。またはより単純に、単純な線形回帰のベクトル形式:
一般的な手法は、1つのリグレッサーを選択し、他のすべての変数をそのリグレッションの残差で置き換えることです。
この条件に違反して問題があります:
異分散性は、OLS推定量に重大な結果をもたらします。OLS推定器は不偏のままですが、推定SEは間違っています。このため、信頼区間と仮説検定は信頼できません。さらに、OLS推定器は青ではなくなりました。
このプロットでは、一定のままであるのではなく、リグレッサの値(説明変数)とともに分散が増加しています。この場合、残差は正規分布しますが、この正規分布の分散は説明変数によって変化(増加)します。
「真の」(人口)回帰直線は、最初のプロット(濃い青)の等分散性下の人口回帰直線に対して変化しませんが、推定値がより不確かになることは直感的に明らかです。
データセットの診断プロットは...
これは、「ヘビーテール」分布に対応します。これは、すべての「サイドバイサイド」垂直ガウスプロットを望遠鏡で単一のプロットに望遠鏡で表示することです。
@Glen_b「...この2つの違いを完全に網羅しているのは、ホモスケダスティクスですが、正常ではないことも考慮します。」
残差は大きく歪んでおり、説明変数の値とともに分散が増加します。
これらは診断プロットになります...
マークされた右スキューネスに対応します。
ループを閉じるために、非ガウス分布の誤差を持つホモスケステッドモデルの歪度も確認します。
診断プロットとして...
それはOPのせいではありませんが、私はこのような誤った情報を読むのに疲れ始めています。
私はこれらが重回帰モデルを使用するための条件であることを読みました:
the residuals of the model are nearly normal, the variability of the residuals is nearly constant the residuals are independent, and each variable is linearly related to the outcome.
「重回帰モデル」は、ある変数を他の変数の関数として表現できることを宣言する単なるラベルです。
真の誤差項もモデルの残差も特にほとんど何も必要ありません-残差が正常に見える場合、これはその後の統計的推論に適しています。
誤差項の変動性(分散)はほぼ一定である必要はありません。そうでない場合は、今日ではかなり簡単に処理できる異分散性を持つモデルがあります。
残差はいずれの場合でも独立ではありません。それぞれがサンプル全体の関数であるためです。真の誤差項は、彼らが我々が不均一よりも難しいが、度まで扱うことができ、自己相関を持つモデルを、持っていない-ifの独立である必要はありません。
各変数は、結果に直線的に関連する必要はありません。実際、「線形」回帰と「非線形」回帰の区別は、変数間の関係とは関係ありませんが、未知の係数がどのように関係に入るかについてです。
言えることは、最初の3つが成り立ち、4つ目が適切に記述されている場合、「古典的な標準線形回帰モデル」を取得するということです。
回帰の仮定の単一の一意のセットはありませんが、そこにはいくつかのバリエーションがあります。これらの仮定のセットのいくつかは、他のものよりも厳密、すなわち狭いです。また、ほとんどの場合、あなたは必要とせず、多くの場合、実際に分布が正規であると仮定することはできません。
あなたが引用した仮定は最も厳しいものですが、それでも不必要にゆるい言葉で定式化されています。たとえば、正確にはほぼ何ですか?また、仮定を課すのは残差ではなく、エラーです。残差はエラーの推定値であり、観測できません。これは、あなたが悪いソースから引用していることを教えてくれます。それを捨てる。
あなたの質問に対する簡単な答えは、エラーについてスチューデントt分布などの分布を考慮する場合(答えに正しい用語を使用します)、エラーが「ほぼ一定の」変動をどのように持つかを見ることができるということです。正規分布からではなく、「ほぼ一定」の分散をどのように持つかは正規分布を必要としません。言い換えれば、いいえ、追加の要件なしに、ある前提を別の前提から考案することはできません。
したがって、この方法ですべての仮定を1つまたは2つの方程式にまとめると、それらはすべて互いに依存しているように見える場合がありますが、これは正しくありません。次にこれを実演します。
私は議論に新しい次元を追加し、より一般的なものにしようとしました。あまりにも初歩的だった場合すみません。
回帰モデルは、統計関係の2つの重要な要素を表す正式な手段です。
それを仮定することにより:
出典:応用線形統計モデル、KNNL
パラメータです
the residuals of the model are nearly normal, the variability of the residuals is nearly constant the residuals are independent, and each variable is linearly related to the outcome.
1と2はどう違うのですか?
質問に来る
あなたが述べた最初と2番目の仮定は、平均がゼロで分散が一定の正規性の同じ仮定の2つの部分です。質問は、2つの仮定の違いではなく、通常の誤差回帰モデルの2つの仮定の意味として何を提起すべきかと思います。私は、点の分布の仮定とその変動性の仮定の間の違いを見つけようとしているので、リンゴとオレンジを比較するように見えるからだと言います。変動は分布の特性です。したがって、2つの仮定の意味合いについて、より関連性のある質問に答えようとします。
正規性の仮定の下で最尤推定(MLEは)は、最小二乗推定器と同様であり、MLEはであるという特性楽しむUMVUEそれらは全て推定量のうちの最小分散を有する手段。