線形回帰診断はどの順序で行う必要がありますか?


24

線形回帰分析では、外れ値を分析し、多重共線性を調査し、不均一分散性をテストします。

問題は、これらを適用する順序はありますか?つまり、まず異常値を分析してから、多重共線性を調べる必要がありますか?または逆ですか?

これについての経験則はありますか?


2
いくつかの非常に大まかな経験則:フィッティングを行う前に共線性を調査する必要があります。存在する場合は、(a)共線性を処理する方法を使用するか、(b)共線性フィーチャを削除するか、(c)フィーチャを変換する(PCAを使用するなど)必要があります。モデルを近似したら、残差の不均一分散性を調べることができます。一般に、予測モデルを作成している場合、外れ値を削除しないでください。代わりに、外れ値の存在に対して堅牢な方法を使用してください。
クリステイラー

1
共線性をどのように調べるのが最善ですか?予測子の相関行列の非対角要素を調べますか?
三浦

1
共線性を調査する最良の方法は、条件指標とそれらによって説明される分散の割合です。高い相関は、共線性の必要条件でも十分条件でもありません。
ピーターフロム-モニカの復職

回答:


28

プロセスは反復的ですが、自然な順序があります。

  1. 最初に、完全な数値エラーを引き起こす条件について心配する必要があります。多重共線性はそれらの1つです。なぜなら、それは完全に誤った答えを潜在的にもたらす不安定な連立方程式を生成する可能性があるためです(小数点以下16桁まで...)ここでの問題は通常、修正されるまで続行できないことを意味します。多重共線性は、通常、分散インフレーション係数と「ハットマトリックス」の同様の検査を使用して診断されます。この段階での追加のチェックには、データセット内の欠損値の影響の評価と、重要なパラメーターの識別可能性の検証が含まれます。(離散独立変数の組み合わせがないと、ここで問題が発生することがあります。)

  2. 次に、出力がほとんどのデータを反映しているか、小さなサブセットに敏感かを気にする必要があります。後者の場合、その後行う他のすべてが誤解を招く可能性があるため、回避する必要があります。手順には、外れ値とレバレッジの検査が含まれます。(レバレッジの高いデータムは外れ値ではないかもしれませんが、それでもすべての結果に不当に影響を与える可能性があります。)回帰手順の堅牢な代替案が存在する場合、これを適用する良い機会です。外れ値を検出するために使用します。

  3. 最後に、数値的に安定しているため(計算を信頼できる)、完全なデータセットを反映する状況を達成したら、出力を正しく解釈するために必要な統計的仮定の調査に進みます。主に、これらの懸念は、重要度の大まかな順序で、残差の分布(不均一分散を含むが、対称性、分布形状、予測値または他の変数との相関の可能性、自己相関を含む)、適合度(相互作用用語の必要性)、従属変数を再表現するかどうか、独立変数を再表現するかどうか。

いずれかの段階で、何かを修正する必要がある場合は、最初に戻るのが賢明です。必要な回数だけ繰り返します。


2
実際には、VIFよりも条件インデックスを使用することを好みます。しばらく前にこれらについて論文を書きました。
ピーターフロム-モニカの復職

1
@ピーター良い点。私も条件インデックスを好みますが、VIFは現在非常に人気があるように思えます。
whuber

今日は先ほどのコメントからここをフォローしました。私はかつてポスドクで統計学者と多重共線性に関するいくつかの懸念について相談しました。彼は、回帰におけるIVの性質に応じて、共線性が構造的にモデル化されている現象の一部であると考えることができるという見解を公言しました。私はおそらく彼の正確な言語をマングリングしているので、彼の名前をもう一度見つけるために掘る必要がありますが、これらの線に沿った多重共線性に関する微妙な推論を動機付けるテキストを知っていますか?偶然の質問です。:)
アレクシス

@Alexisその統計学者は、多重共線性の微妙で洗練された概念を持っているように聞こえます。私はそれを明確に表現する教科書を考えることができません。
whuber

私は彼を追跡し、それについて彼に尋ねる必要があります。:)
アレクシス

3

状況次第だと思います。特定の問題を想定していない場合は、おそらくこれらを任意の順序で確認できます。外れ値が予想され、それらを検出した後にそれらを削除する理由がある場合は、まず外れ値を確認します。観測が削除されると、モデルに関する他の問題が変わる可能性があります。その後、マルチコリネリティと不均一分散の間の順序は関係ありません。私は、外れ値をarbitrarily意的に削除すべきではないというクリスに同意します。観測が間違っていると考える理由が必要です。

もちろん、多重共線性または不均一分散性を観察する場合は、アプローチを変更する必要があります。多重共線性問題は共分散行列で観察されますが、多重共線性を検出するための特定の診断テストや、Belsley、Kuh、Welschによる回帰診断ブックまたはデニスクックの回帰ブックの 1つを参照するレバレッジポイントなどの他の問題があります。


9
マイケル、将来的には、書式設定オプションを使用できますか?(リンクを挿入する正しいキーはctrl-cではなくctrl-lです)。
-user603
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.