私は、kレベルのカテゴリ変数がダミーのエンコードでk-1変数でエンコードされる必要があるという事実を認識しています(同様に、多値のカテゴリ変数の場合)。さまざまな回帰メソッド、主に線形回帰、ペナルティ付き線形回帰(Lasso、Ridge、ElasticNet)、ツリーベース(ランダムフォレスト)のダミーエンコーディングに対してワンホットエンコーディング(つまり、代わりにk変数を使用)がどのくらい問題になるのかと思っていました。 、勾配ブースティングマシン)。
線形回帰では、多重共線性の問題が発生することを知っています(実際には、OHEを使用して線形回帰を問題なくフィッティングしましたが)。
しかし、それらすべてでダミーエンコーディングを使用する必要がありますか?ワンホットエンコーディングを使用した場合、結果はどのように間違っていますか?
私の焦点は、複数の(カーディナリティが高い)カテゴリー変数を使用した回帰モデルでの予測にあります。そのため、信頼区間には興味がありません。