私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。
最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。
たとえば、性別を2つの変数としてエンコードするis_male
とis_female
、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。
それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか?
可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?
Does keeping all k values theoretically make them weaker features
。いいえ(ただし、「弱い」という意味は100%わかりません)。using something like PCA
念のため、同じカテゴリ変数を表すダミーのセットのPCAには実用的なポイントがほとんどないことに注意してください。ダミーのセット内の相関関係は、カテゴリ頻度間の関係のみを反映しているためです(したがって、すべての頻度が等しい場合、すべての相関関係は等しくなります) 1 /(k-1))
is_male
両方のオプションではなく変数のみを使用している場合、性別の重要性の「より正確な」推定値を取得しますか?たぶん、このコンテキストでは意味がありません。実際に同じ情報をエンコードする2つの異なる変数(たとえば、高さはインチ、高さはcm)がある場合にのみ問題になる可能性があります。
you end up with correlated features, so you should drop one of them as a "reference"
ダミー変数またはインジケーター変数(これらは統計で使用される2つの名前であり、機械学習の「ワンホットエンコーディング」と同義です)は、すべてkまたはk-1変数であっても、ペアで相関しています。したがって、「相関」ではなく「統計的/情報的に冗長」という方が良い言葉です。