約20列(20フィーチャ)の未加工データがあります。それらのうちの10個は連続データであり、10個はカテゴリカルです。一部のカテゴリデータには、50個の異なる値(米国の州)が含まれる場合があります。データを前処理した後、10個の連続した列が10個の準備された列になり、10個のカテゴリ値が200個のワンホットエンコード変数のようになります。これらの200 + 10 = 210の機能すべてをニューラルネットに入れると、200の1ホットフィーチャ(10のカテゴリ列)が10の連続フィーチャを完全に支配するのではないかと心配しています。
おそらく、1つの方法は、列などを「グループ化」することです。これは有効な懸念事項ですか?この問題に対処する標準的な方法はありますか?
(私はKerasを使用していますが、それほど重要ではないと思います。)