線形回帰分析では、外れ値を分析し、多重共線性を調査し、不均一分散性をテストします。
問題は、これらを適用する順序はありますか?つまり、まず異常値を分析してから、多重共線性を調べる必要がありますか?または逆ですか?
これについての経験則はありますか?
線形回帰分析では、外れ値を分析し、多重共線性を調査し、不均一分散性をテストします。
問題は、これらを適用する順序はありますか?つまり、まず異常値を分析してから、多重共線性を調べる必要がありますか?または逆ですか?
これについての経験則はありますか?
回答:
プロセスは反復的ですが、自然な順序があります。
最初に、完全な数値エラーを引き起こす条件について心配する必要があります。多重共線性はそれらの1つです。なぜなら、それは完全に誤った答えを潜在的にもたらす不安定な連立方程式を生成する可能性があるためです(小数点以下16桁まで...)ここでの問題は通常、修正されるまで続行できないことを意味します。多重共線性は、通常、分散インフレーション係数と「ハットマトリックス」の同様の検査を使用して診断されます。この段階での追加のチェックには、データセット内の欠損値の影響の評価と、重要なパラメーターの識別可能性の検証が含まれます。(離散独立変数の組み合わせがないと、ここで問題が発生することがあります。)
次に、出力がほとんどのデータを反映しているか、小さなサブセットに敏感かを気にする必要があります。後者の場合、その後行う他のすべてが誤解を招く可能性があるため、回避する必要があります。手順には、外れ値とレバレッジの検査が含まれます。(レバレッジの高いデータムは外れ値ではないかもしれませんが、それでもすべての結果に不当に影響を与える可能性があります。)回帰手順の堅牢な代替案が存在する場合、これを適用する良い機会です。外れ値を検出するために使用します。
最後に、数値的に安定しているため(計算を信頼できる)、完全なデータセットを反映する状況を達成したら、出力を正しく解釈するために必要な統計的仮定の調査に進みます。主に、これらの懸念は、重要度の大まかな順序で、残差の分布(不均一分散を含むが、対称性、分布形状、予測値または他の変数との相関の可能性、自己相関を含む)、適合度(相互作用用語の必要性)、従属変数を再表現するかどうか、独立変数を再表現するかどうか。
いずれかの段階で、何かを修正する必要がある場合は、最初に戻るのが賢明です。必要な回数だけ繰り返します。
状況次第だと思います。特定の問題を想定していない場合は、おそらくこれらを任意の順序で確認できます。外れ値が予想され、それらを検出した後にそれらを削除する理由がある場合は、まず外れ値を確認します。観測が削除されると、モデルに関する他の問題が変わる可能性があります。その後、マルチコリネリティと不均一分散の間の順序は関係ありません。私は、外れ値をarbitrarily意的に削除すべきではないというクリスに同意します。観測が間違っていると考える理由が必要です。
もちろん、多重共線性または不均一分散性を観察する場合は、アプローチを変更する必要があります。多重共線性問題は共分散行列で観察されますが、多重共線性を検出するための特定の診断テストや、Belsley、Kuh、Welschによる回帰診断ブックまたはデニスクックの回帰ブックの 1つを参照するレバレッジポイントなどの他の問題があります。