パンダで2列からタプル列を形成する方法

125

Pandas DataFrameがあり、「lat」列と「long」列を組み合わせてタプルを形成したいと思います。

<class 'pandas.core.frame.DataFrame'>
Int64Index: 205482 entries, 0 to 209018
Data columns:
Month           205482  non-null values
Reported by     205482  non-null values
Falls within    205482  non-null values
Easting         205482  non-null values
Northing        205482  non-null values
Location        205482  non-null values
Crime type      205482  non-null values
long            205482  non-null values
lat             205482  non-null values
dtypes: float64(4), object(5)

私が使用しようとしたコードは：

def merge_two_cols(series): 
    return (series['lat'], series['long'])

sample['lat_long'] = sample.apply(merge_two_cols, axis=1)

ただし、これにより次のエラーが返されました。

---------------------------------------------------------------------------
 AssertionError                            Traceback (most recent call last)
<ipython-input-261-e752e52a96e6> in <module>()
      2     return (series['lat'], series['long'])
      3 
----> 4 sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
      5

...

AssertionError: Block shape incompatible with manager

この問題を解決するにはどうすればよいですか？

— elksie5000
ソース

201

に慣れるzip。列データを扱うときに便利です。

df['new_col'] = list(zip(df.lat, df.long))

applyまたはを使用するよりも簡単で高速ですmap。のようなものnp.dstackはの2倍高速ですがzip、タプルは提供されません。

— デイル・ジョン
ソース

3

python3では、を使用する必要がありますlist。これは機能するはずですdf['new_col'] = list(zip(df.lat, df.long))

— 。– paulwasit

@paulwasitああ、私の愛はpython 3の怠惰な行動との関係が嫌いです。ありがとう。

— Dale Jung、

4

list(zip(df.lat, df.long))124msのこの方法はdf[['lat', 'long']].apply(tuple, axis=1)、900k行の14.2秒よりもはるかに効率的です。比率は100を超えています

— 。– Pengju Zhao 2017

1

列の長いリストでこれを使用しようとしていますdf['new_col'] = list(zip(df[cols_to_keep])) が、エラーが発生し続けます。Length of values does not match length of indexアドバイスはありますか？

— seeiespi 2018

1

@PeterHansenの答えは私を助けましたが、最初にリストをアンパックする*が欠落している可能性があると思います-すなわち df['new_col'] = list(zip(*[df[c] for c in cols_to_keep])

— jedge

61

In [10]: df
Out[10]:
          A         B       lat      long
0  1.428987  0.614405  0.484370 -0.628298
1 -0.485747  0.275096  0.497116  1.047605
2  0.822527  0.340689  2.120676 -2.436831
3  0.384719 -0.042070  1.426703 -0.634355
4 -0.937442  2.520756 -1.662615 -1.377490
5 -0.154816  0.617671 -0.090484 -0.191906
6 -0.705177 -1.086138 -0.629708  1.332853
7  0.637496 -0.643773 -0.492668 -0.777344
8  1.109497 -0.610165  0.260325  2.533383
9 -1.224584  0.117668  1.304369 -0.152561

In [11]: df['lat_long'] = df[['lat', 'long']].apply(tuple, axis=1)

In [12]: df
Out[12]:
          A         B       lat      long                             lat_long
0  1.428987  0.614405  0.484370 -0.628298      (0.484370195967, -0.6282975278)
1 -0.485747  0.275096  0.497116  1.047605      (0.497115615839, 1.04760475074)
2  0.822527  0.340689  2.120676 -2.436831      (2.12067574274, -2.43683074367)
3  0.384719 -0.042070  1.426703 -0.634355      (1.42670326172, -0.63435462504)
4 -0.937442  2.520756 -1.662615 -1.377490     (-1.66261469102, -1.37749004179)
5 -0.154816  0.617671 -0.090484 -0.191906  (-0.0904840623396, -0.191905582481)
6 -0.705177 -1.086138 -0.629708  1.332853     (-0.629707821728, 1.33285348929)
7  0.637496 -0.643773 -0.492668 -0.777344   (-0.492667604075, -0.777344111021)
8  1.109497 -0.610165  0.260325  2.533383        (0.26032456699, 2.5333825651)
9 -1.224584  0.117668  1.304369 -0.152561     (1.30436900612, -0.152560909725)

— Wouter Overmeire
ソース

そりゃ素晴らしい。ありがとうございました。明らかにラムダ関数に頭を悩ます必要があります。

— elksie5000 2013

これはあなたのデータで機能しましたか？もしそうなら、パンダのバージョンとデータを共有できますか？なぜあなたのコードは機能しなかったのでしょうか。

— Wouter Overmeire 2013

バージョンは0.10.1_20130131です。無知ですが、データのセクションをアップロードする最良の方法は何ですか？（それでも比較的初心者）。

— elksie5000 2013

0.10.1で再現できませんでした。アップロードの最良の方法は？ランダムデータを保持するフレームを生成するコードを作成し、同じ問題を抱えてそのコードを共有するか、上のフレーム（サンプル）をピクルして、無料の大きなファイル転送サービスを介して転送できます。ピクルスにする方法（2行で、 "、"なし）：ピクルをインポートし、open（ 'sample.pickle'、 'w'）をファイルとしてインポートします：pickle.dump（sample、file）

— Wouter Overmeire

1

10列を圧縮する必要があり、データフレーム名を10回指定したくないので、これを支持しました。列名を付けたいだけです。

— rishi jain

13

パンダにはitertuplesこれを正確に行う方法があります：

list(df[['lat', 'long']].itertuples(index=False, name=None))

— テッド・ペトルー
ソース

3

追加したいdf.values.tolist()です。（タプルではなくリストの列を取得することを気にしない限り）

import pandas as pd
import numpy as np

size = int(1e+07)
df = pd.DataFrame({'a': np.random.rand(size), 'b': np.random.rand(size)}) 

%timeit df.values.tolist()
1.47 s ± 38.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit list(zip(df.a,df.b))
1.92 s ± 131 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

— user3820991
ソース

あなただけのこれらの2列以上のものを持っている場合：%timeit df[['a', 'b']].values.tolist()。それはまだずっと速いです。

— ChaimG