相関性の高いリグレッサを使用した多重線形回帰では、使用する最適な戦略は何ですか?相関するすべてのリグレッサーの積を加算するのは正当なアプローチですか?
相関性の高いリグレッサを使用した多重線形回帰では、使用する最適な戦略は何ですか?相関するすべてのリグレッサーの積を加算するのは正当なアプローチですか?
回答:
主成分は、理にかなっています...数学的に。ただし、この場合、単に数学的なトリックを使用することと、自分の問題について考える必要がないことを望んでいます。
私が持っている予測変数の種類、独立変数とは何か、予測変数が相関している理由、予測変数の一部が実際に同じ基礎となる現実を測定しているかどうか(もしそうなら、単一の測定とこれに最適な予測子)、分析の対象-推論に興味がなく、予測のみに興味がある場合は、将来に限り、実際のものをそのまま残すことができます予測値は過去のものと似ています。
この問題に対処するには、主成分分析またはリッジ回帰を使用できます。一方、パラメーター推定に問題を引き起こすほど高い相関関係がある2つの変数がある場合、2つの変数は同じ情報を運ぶため、予測の面で多くを失うことなく、ほぼ確実に2つのいずれかをドロップできます。もちろん、それは問題が2つの高度に相関した独立者によるものである場合にのみ機能します。問題が3つ以上の変数を含み、それらが一緒にほぼ共線的である場合(そのうちの2つは中程度の相関しか持たない可能性があります)、おそらく他の方法の1つが必要になります。
相関するリグレッサーの一部が有意に関連している場合(たとえば、それらは知性の異なる測定値、つまり、言語、数学など)、次の手法のいずれかを使用して同じ変数を測定する単一の変数を作成できます。
リグレッサを合計します(リグレッサが全体のコンポーネントである場合に適切です。たとえば、言語IQ +数学IQ =全体的なIQ)
リグレッサの平均(リグレッサが同じ基礎構造を測定している場合に適切です。たとえば、左の靴のサイズ、足の長さを測定するための右の靴のサイズ)
因子分析(測定の誤差を考慮し、潜在因子を抽出するため)
その後、相関するすべてのリグレッサを削除し、上記の分析から出現する1つの変数に置き換えることができます。
私は上記のStephan Kolassaとほぼ同じことを言おうとしていました(そのため彼の答えを支持しました)。場合によっては、多重共線性は、サイズの尺度とすべて非常に相関する広範な変数の使用が原因であり、集中変数を使用すること、つまりすべてをサイズの尺度で除算することで状況を改善できることだけを追加します。たとえば、ユニットが国である場合、状況に応じて、人口、面積、またはGNPで分けることができます。
ああ-と、元の質問の後半部分に答えるために:私は考えることはできません任意の良いでしょうすべての相関説明変数の製品を追加するときの状況。どのように役立ちますか?それはどういう意味ですか?
私はこれに関する専門家ではありませんが、最初に考えたのは、予測変数で主成分分析を実行し、結果の主成分を使用して従属変数を予測することです。
これは救済策ではありませんが、間違いなく正しい方向への一歩です。