タグ付けされた質問 「one-hot-encoding」


20
Pythonで1つのホットエンコードを行うにはどうすればよいですか?
80%のカテゴリカル変数を使用した機械学習分類問題があります。分類に分類子を使用する場合、1つのホットエンコーディングを使用する必要がありますか?エンコードせずにデータを分類子に渡すことはできますか? 機能を選択するために次のことを実行しようとしています。 私は列車のファイルを読みました: num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read) カテゴリー特徴のタイプを「カテゴリー」に変更します。 non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', 'cnt'] for categorical_feature in list(train_small.columns): if categorical_feature not in non_categorial_features: train_small[categorical_feature] = train_small[categorical_feature].astype('category') 私は1つのホットエンコーディングを使用しています: train_small_with_dummies = pd.get_dummies(train_small, sparse=True) 問題は、強力なマシンを使用しているにもかかわらず、3番目の部分が頻繁にスタックすることです。 したがって、1つのホットエンコーディングがないと、機能の重要性を判断するために機能を選択できません。 何がお勧めですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.