1
ワンホットエンコーディングを使用するときに列の1つを削除する
私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。 最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。 たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。 それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか? 可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?