4
get_dummies(パンダ)とOneHotEncoder(Scikit-learn)の長所と短所は何ですか?
機械学習分類器のカテゴリ変数を数値に変換するさまざまな方法を学習しています。私はそのpd.get_dummies方法に出くわし、sklearn.preprocessing.OneHotEncoder()パフォーマンスと使用法の点でそれらがどのように異なるかを見たかったのです。 私が使用する方法についてのチュートリアル見つかっOneHotEncoder()にhttps://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/をするのでsklearnドキュメントには、この機能のあまり有用ではなかったです。正しくやっていない気がします…でも いくつかの使用の長所と短所を説明することができpd.dummies超えるsklearn.preprocessing.OneHotEncoder()と、その逆の?私はそれOneHotEncoder()があなたにスパース行列を与えることを知っていますが、それ以外はそれがどのように使われるか、そしてそのpandas方法にどのような利点があるのかわかりません。非効率的に使用していますか? import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …