ワンホットエンコーディングを使用するときに列の1つを削除する


21

私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。

最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。

たとえば、性別を2つの変数としてエンコードするis_maleis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。

それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか?

可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?


8
you end up with correlated features, so you should drop one of them as a "reference"ダミー変数またはインジケーター変数(これらは統計で使用される2つの名前であり、機械学習の「ワンホットエンコーディング」と同義です)は、すべてkまたはk-1変数であっても、ペアで相関しています。したがって、「相関」ではなく「統計的/情報的に冗長」という方が良い言葉です。
ttnphns

データ内のk-1個のダミーの値を知っている場合、その最後のダミーの値を自動的に知っているため、すべてのk個のダミーのセットは多重共線セットです。一部のデータ分析方法またはアルゴリズムでは、kのいずれかをドロップする必要があります。その他はすべてのkに対処することができます。
ttnphns

@ttnphns:ありがとう、それは理にかなっています。理論的にすべてのk値を保持することにより、次元の削減で排除できる/排除すべきより弱い特徴ができますか?PCAのようなものを使用するための引数の1つは、多くの場合、相関/冗長機能を削除することです。すべてのk変数をそのカテゴリに入れるかどうかは疑問です。
-dasboth

Does keeping all k values theoretically make them weaker features。いいえ(ただし、「弱い」という意味は100%わかりません)。using something like PCA念のため、同じカテゴリ変数を表すダミーのセットのPCAには実用的なポイントがほとんどないことに注意してください。ダミーのセット内の相関関係は、カテゴリ頻度間の関係のみを反映しているためです(したがって、すべての頻度が等しい場合、すべての相関関係は等しくなります) 1 /(k-1))
ttnphns

つまり、モデルを使用してフィーチャの重要性を評価する場合(ランダムフォレストなど)、すべてのk値を含めると、その変数の重要性が過小評価されますか?同様に、is_male両方のオプションではなく変数のみを使用している場合、性別の重要性の「より正確な」推定値を取得しますか?たぶん、このコンテキストでは意味がありません。実際に同じ情報をエンコードする2つの異なる変数(たとえば、高さはインチ、高さはcm)がある場合にのみ問題になる可能性があります。
-dasboth

回答:


22

lmglm

他のモデルでは、同じ原則を使用します。取得した予測が除外する列に依存する場合は、実行しないでください。それ以外の場合は問題ありません。

これまでのところ、この回答では線形(およびいくつかの緩やかに非線形の)モデルのみに言及しています。しかし、木やランダムフォレストのような非常に非線形なモデルはどうでしょうか?ワンホットなどのカテゴリエンコーディングに関するアイデアは、主に線形モデルと拡張機能に基づいています。その文脈から導き出されたアイデアが、木や森に修正なしで適用されるべきだと考える理由はほとんどありません!いくつかのアイデアについては、Pythonでのスパースデータを使用したランダムフォレスト回帰を参照してください。

β,β2,β3β1=0β2β1,β3β1


参照変数の選択は、正規化された回帰の結果に影響することに同意できますが、すべての変数をそのままにしておく方が、変数をドロップするよりも良いかどうかはわかりません。その理由はありますか?
森幸太

さて、2つの選択肢のみ...すべてのレベルを維持すると不変性が維持され、and意性はありません。レベルの数を減らしたい他の理由がある場合は、それについて教えてください
kjetil b halvorsen
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.