プログラミング categorical-data

6

回帰でバイナリの説明変数を使用する場合、Rに特定のレベルを参照として使用するように指示するにはどうすればよいですか？デフォルトでは、あるレベルを使用しているだけです。 lm(x ~ y + as.factor(b)) とb {0, 1, 2, 3, 4}。Rが使用するゼロの代わりに3を使用したいとします。

112 r regression linear-regression categorical-data dummy-variable

6

パンダ：カテゴリを数字に変換する

次のような国のデータフレームがあるとします。 cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 国を「ワンホットエンコーディング」に変換するpd.get_dummies関数があることを私は知っています。ただし、代わりに取得できるように、代わりにインデックスに変換したいと思いcc_index = [1,2,1,3]ます。以下に示すように、get_dummiesをnumpywhere句と一緒に使用するよりも高速な方法があると思います。 [np.where(x) for x in df.cc.get_dummies().values] これは、Rで「factors」を使用して行う方がやや簡単なので、パンダにも同様の機能があることを期待しています。

86 python pandas series categorical-data binning

3

複数のカテゴリー列を変換する

私のデータセットには、列挙したい2つのカテゴリー列があります。2つの列には両方の国が含まれており、一部が重複しています（両方の列に表示されます）。同じ国のcolumn1とcolumn2に同じ番号を付けたいのですが。私のデータは次のように見えます： import pandas as pd d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']} df = pd.DataFrame(data=d) df 現在、私はデータを次のように変換しています： from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) ただし、これはFRとESを区別しません。次の出力に到達する別の簡単な方法はありますか？ o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]} output = pd.DataFrame(data=o) output

10 python python-3.x pandas scikit-learn categorical-data

タグ付けされた質問 「categorical-data」

タグ付けされた質問「categorical-data」