ピアソンの相関係数を使用すると、高度に相関するいくつかの変数があります(モデルにある2組の変数に対しておよび)。
理由一つの変数がで使用されているので、変数のいくつかは高度に相関しているがある計算別の変数。
例:
および
と持っている
変数の1つを「捨てる」ことは可能ですか?
ピアソンの相関係数を使用すると、高度に相関するいくつかの変数があります(モデルにある2組の変数に対しておよび)。
理由一つの変数がで使用されているので、変数のいくつかは高度に相関しているがある計算別の変数。
例:
および
と持っている
変数の1つを「捨てる」ことは可能ですか?
回答:
BとEは両方ともVから派生します。BとEは、明らかに互いに「独立した」変数ではありません。ここで実際に重要な基礎となる変数はVです。この場合、おそらくBとEの両方を削除し、Vのみを保持する必要があります。
より一般的な状況では、非常に相関の高い2つの独立変数がある場合、多重共線性の難問にぶつかり、2つの高度に相関した変数に関連する回帰モデルの回帰係数は信頼できないため、それらの1つを必ず削除する必要があります。また、単純な英語では、2つの変数の相関が非常に高い場合、明らかにほぼ同じ情報が回帰モデルに伝えられます。しかし、両方を含めることで、実際にモデルを弱体化しています。増分情報は追加していません。代わりに、モデルにノイズを注入しています。良いことではありません。
モデル内で高度に相関する変数を保持できる1つの方法は、回帰の代わりに主成分分析(PCA)モデルを使用することです。PCAモデルは、多重共線性を取り除くために作られています。トレードオフは、モデル内に2つまたは3つの主成分が存在することです。これらの主成分は、多くの場合、単に数学的な構成要素であり、論理用語ではほとんど理解できません。したがって、PCAは、管理者、規制当局などの外部の聴衆に結果を提示しなければならないときは常に、方法として放棄されます。PCAモデルは、説明するのが非常に難しい不可解なブラックボックスを作成します。
機械学習者の観点からの答えを次に示しますが、実際の統計学者にbeatられてしまうのではないかと心配しています。
変数の1つを「捨てる」ことは可能ですか?
問題は、予測に使用するモデルのタイプです。それは例えばに依存します...
機械学習者は、遺伝的最適化を実行して、一連の予測子の最適な算術組み合わせを見つけることもあります。
Dが定数でない場合、BとEは、Dの変動のため、事実上2つの異なる変数です。高い相関は、Dがトレーニングデータ全体で実質的に一定であることを示します。その場合、BまたはEを破棄できます。