多数の値に対する1つのホットエンコーディング


7

カテゴリ変数が取り得る値の数が多い場合、1つのホットエンコーディングをどのように使用しますか?

私の場合は56の値です。そのため、通常の方法のように、トレーニングデータセットに56列(56バイナリフィーチャ)を追加する必要があります。これにより、複雑さが大幅に増加し、トレーニング時間が増加します。

それでは、このような場合にどのように対処しますか?



どのアルゴリズムを使用していますか?SGDは、ラップトップの数分で数十万のデータ行の数十万の機能を処理できます。
ディエゴ

回答:


9

次元数に本当に関心がある場合でも、1回のホットエンコーディングの後に、PCA(主成分分析)やLDA(線形判別分析)などの次元削減アルゴリズムを適用することを試みることができます。

しかし、「56の機能」はそれほど大きくなく、数千、数百万、または数十億の機能を持つことは業界では非常に一般的です。


RNNを使用して50の機能と60のカテゴリを持つことは正常ですか?
Boppity Bop

2

同じようにラベルを付けることにより、大多数と比較して小さい比率を表すいくつかのカテゴリがある場合、56のダミーの結果の寸法を小さくしてみることができます。


私の場合、すべての機能が多かれ少なかれ同等に重要であるため、どの機能を一緒に組み合わせる必要があるかを見つける方法はありますか?
マッハ

頻度の少ないものをお試しください!
Alexandru Daia

...または値をより細かくすることができます。たとえば、50州の代わりに、北東部、中部大西洋など。特定の要因を統合するために使用できるドメイン知識はありますか?

1
すべてのカテゴリー値が等しく重要であることをどのようにして知っていますか?どのような方法論でしたか...ターゲットとのピアソン相関、投げ縄回帰、決定木などを行いましたか?機能の重要性をどのように評価していますか?
AN6U5

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.