ニューラルネットワークなどの多くの機械学習アルゴリズムは、数値を扱うことを想定しています。そのため、カテゴリデータがある場合は、変換する必要があります。カテゴリ別の意味は、たとえば:
自動車ブランド:アウディ、BMW、シボレー...ユーザーID:1、25、26、28 ...
ユーザーIDは数字ですが、単なるラベルであり、年齢や金額などの継続性の観点からは意味がありません。
そのため、基本的なアプローチでは、バイナリベクトルを使用してカテゴリをエンコードするようです。
アウディ:1、0、0 ... BMW:0、1、0 ...シボレー:0、0、1 ...
カテゴリがほとんどない場合でも問題ありませんが、それ以上は少し非効率的に見えます。たとえば、10 000個のユーザーIDをエンコードする場合、10,000個の機能になります。
質問は、より良い方法はありますか?たぶん、確率を伴うものですか?