線形モデルの仮定と残差が正規分布していない場合の対処


22

私は、線形回帰の仮定が少し混乱しています。

これまでのところ、次のことを確認しました。

  • すべての説明変数は応答変数と線形に相関していました。(これが事実でした)
  • 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。
  • 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。
  • 残差は正規分布します。(これはそうではないかもしれません)

しかし、私は次を読みました:

(a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。

質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか?

質問2 残差のQQnormalプロットは次のようになります。

残差の正常性チェック

これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

残差と近似値は次のようになります。

残差対適合

残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?


3
残差対近似プロットは、従属変数に下限があることを示唆しています。これにより、表示されるパターンが変わる可能性があります。これにより、検討可能な代替モデルの目安が得られます。
マールテン

回答:


25

まず最初に、この古典的で親しみやすい記事のコピーを自分で手に入れて読んでみました:Anscombe FJ。(1973)統計分析 グラフアメリカの統計学者。27:17–21。

あなたの質問に:

回答1:従属変数も独立変数も正規分布する必要はありません。実際、あらゆる種類のループ状の分布を持つことができます。(正規性の仮定は、誤差の分布に適用されるYiY^i)。

回答2:実際には、通常の最小二乗(OLS)回帰の2つの別個の仮定について尋ねています。

  1. 1つは直線性仮定です。これは、YX関係が直線で表されることを意味します(右?代数に戻る:y=a+bx、ここでay切片、bは直線の傾き)。この仮定の単純な意味は、関係が直線でうまく記述されていないことを意味します(たとえば、YXの正弦関数ですX、または二次関数、あるいはある点で勾配を変える直線さえ)。非線形性に対処するための私自身の好ましい2ステップアプローチは、(1)ある種のノンパラメトリック平滑化回帰を実行して、YX間の特定の非線形関数関係を提案します(たとえば、LOWESSまたはGAMなどを使用)、非線形含む重回帰いずれかを使用して機能的関係を指定すると、(2)X、(例えば、YX+X2)、又は非線形最小二乗回帰 Xのパラメータの非線形性を含むモデル(例えば、YX+max(Xθ,0)θの回帰直線点表すY上のX傾きを変更します)。

  2. もう1つは、正規分布の残差の仮定です。OLSコンテキストで非正規残差を有効に回避できる場合があります。たとえば、Lumley T、Emerson S.(2002)The Largeance of the Normality Assumption in Large Public Health Data Setsを参照してください公衆衛生の年次レビュー。23:151–69。時々、できないこともあります(再び、Anscombeの記事を参照)。

ただし、OLSでの仮定については、データの望ましいプロパティではなく、自然を説明するための興味深い出発点として考えることをお勧めします。結局のところ、私たちが世界で気にしていることのほとんどは、y切片や傾きよりも興味深いものです。(適切な方法で)創造的にOLSの前提に違反することで、より興味深い質問に答えることができます。


2
ありがとう!いくつかの統計コースのスライドでは、仮定が失敗した場合、Yの変換または説明変数の変換を試みることができると述べています。たとえばlm(Y ^ 0.3〜+ X1 + X2 + ...)を実行してYを変換すると、残差は正規分布になります。これは有効なことですか?
ステファン

@ステファンはい!多くの場合、応答を変換することは良いことであり、log単純なパワー変換が一般的です。
グレゴール

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis:なぜこれらのページは、変数を正規分布させる必要があると言っているのですか?(1)pareonline.net/getvn.asp?n=2&v=8 (2)statisticssolutions.com/…–
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

最初の問題は

  • 保証にもかかわらず、残差プロットは、条件付き期待応答が近似値で線形ではないことを示しています。平均のモデルが間違っています。

  • 一定の分散はありません。分散のモデルが間違っています。

それらの問題の正常性を評価することさえできません。


プロットを見て、線形性についてどのように結論付けたのか詳しく説明してください。ここでは、等分散性の仮定が満たされていないことを理解しています。
Nisha Arora博士

y^y^=30060<00303060>60)、直線の最良の推定値を描きます。私のようなものを与える、自分のラインを組み合わせたので、私にとっては中央の2つは、ほぼ一致しており、この
Glen_b -Reinstateモニカ

中半分では、ほぼすべての残差が負になり、外側の部分ではほぼすべての残差が正になります。これらはランダムな残差がどのように見えるかではありません。
Glen_b-モニカを

ありがとう、@ Glen_b。長いギャップの後、私は自分の概念を再検討しているため、最初は視覚化できませんでした。
Nisha Arora博士

ここに進むことはあまりありませんが、元のデータは非負であり、一般化された線形モデル(おそらく対数リンク付きのガンマ)または変換(対数変換の可能性が高い)のいずれかがより適切な選択です。
Glen_b-モニカを

3

線形モデルが完全に役に立たないとは言いません。ただし、これは、モデルがデータを正しく/完全に説明していないことを意味します。モデルが「十分」であるかどうかを判断しなければならない部分があります。

最初の質問について、線形回帰モデルでは、従属変数と独立変数が正常でなければならないとは考えていません。ただし、残差の正規性に関する仮定があります。

2番目の質問では、2つの異なる考慮事項があります。

  1. 異なる種類のモデルを確認してください。データを説明するには、別のモデルの方が適している場合があります(たとえば、非線形回帰など)。それでも、この「新しいモデル」の前提に違反していないことを確認する必要があります。
  2. データには、応答(結果)を説明するのに十分な共変量(従属変数)が含まれていない場合があります。この場合、他には何もできません。残差が異なる分布(t分布など)に従っているかどうかを確認することもありますが、そうではないようです。

あなたの質問に加えて、QQPlotは「正規化」されていないことがわかります。通常、残差を標準化するとプロットを見るのが簡単になります。stdresを参照してください。

stdres(lmobject)

それがお役に立てば幸いです。おそらく他の誰かがこれを私より上手く説明してくれるでしょう。


0

以前の回答に加えて、モデルを改善するためにいくつかのポイントを追加したいと思います。

  1. 残差の非正規性は、外れ値の存在を示す場合があります。この場合、最初に外れ値を処理します。

  2. いくつかの変換を使用することで目的を解決できます。

  3. さらに、多重共線性に対処するには、https: //www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solutionを参照できます


-1

2番目の質問については、

実際に私に起こったことは、多くの独立変数で応答を過剰に適合させていたことです。オーバーフィットモデルでは、非正規残差がありました。にもかかわらず、結果は、一部の係数がゼロである可能性(p値が0.2以上)を区別するのに十分な証拠がないことを示しています。したがって、2番目のモデルでは、後方選択手順に従って変数を破棄し、qqplotでグラフィカルに、およびShapiro-Wilk検定で仮説検定の両方で正常な残差を検証しました。これがあなたのケースである可能性があるかどうか確認してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.