相関変数を削除するタイミング

11

誰かが機能エンジニアリングの前または機能エンジニアリングの後に相関変数を削除するための正しい段階は何かを提案できますか？

machine-learning feature-selection data-science-model

— bp89
ソース

8

すべての相関変数を削除する必要はありません。相関関係が非常に強く、余分な情報を伝えない場合のみです。これは、相関の強さ、データ量、相関変数間のわずかな違いが結局のところ結果について何かを教えてくれるかどうかの関数です。

最初の2つは、モデルを実行する前に確認できますが、最後の2つは確認できません。したがって、最初の2つの考慮事項の組み合わせに基づいて変数を削除することは非常に合理的です（つまり、追加の変数に原則としていくつかの有用な情報が含まれている場合でも、相関の強さとデータの量を考えるとわかりませんあなたが持っている）あなたがモデリング/特徴エンジニアリングを行う前に。最後のポイントは、実際にいくつかのモデリングを行った後にのみ評価できます。

— ビョルン
ソース

2

他の誰もが解釈可能性に言及しなかったことは奇妙です。

関心があるのがパフォーマンスのみの場合、correlation = 1または-1でない限り、2つの相関変数を削除しても意味がありません。その場合、変数の1つは冗長です。

しかし、解釈可能性が懸念される場合は、相関が穏やかであっても、変数の1つを削除することは理にかなっています。これは特に線形モデルに当てはまります。線形回帰の仮定の 1つは、予測子に完全な多重共線性がないことです。

AがBと相関している場合、AとBのどちらの係数も解釈できません。理由を確認するために、A = B（完全相関）の極端な場合を想像してください。次に、モデルy = 100 * A + 50 * Bは、モデルy = 5 * A + 10 * Bまたはy = -2000 * A + 4000 * Bと同じです。最小二乗最小化問題の可能な解決策には複数の均衡があるため、どちらも「信頼」することはできません。

他のモデルでも同様のことが起こり得ます。たとえば、AがBと非常に相関している場合、決定木がAをBの2倍に選択する場合、AがBよりも重要であるとは言えません。モデルを再トレーニングすると、反対のことが起こった可能性があります。

— リカルド・クルス
ソース

2

VIF（分散インフレ係数）の確認を検討する必要があります。VIFが高い機能を削除してみてください。一般に、VIFは10未満であることが推奨されます。

— シッディ・キラン・バジャチャリヤ
ソース

これは中私の答えと非常によく似てdatascience.stackexchange.com/questions/36634/...

— シッディキランBajracharya

1

それは問題ではありません。しかし、機能エンジニアリングの前の効率のためです。

— モヒトモトワニ
ソース

1

共分散を決定し、最高のセットで初期作業を行います。

— リチャードカレアガ
ソース