1
Scikit-learnでのワンホットエンコーディングとダミーエンコーディング
カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。 ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。 私の質問: Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか?ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか?ウェブサイトに「警告」は表示されません。 ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか?