2つのパンダ列の文字列連結


84

私は以下を持っていますDataFrame

from pandas import *
df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

次のようになります。

    bar foo
0    1   a
1    2   b
2    3   c

今、私は次のようなものが欲しいです:

     bar
0    1 is a
1    2 is b
2    3 is c

どうすればこれを達成できますか?私は以下を試しました:

df['foo'] = '%s is %s' % (df['bar'], df['foo'])

しかし、それは私に間違った結果を与えます:

>>>print df.ix[0]

bar                                                    a
foo    0    a
1    b
2    c
Name: bar is 0    1
1    2
2
Name: 0

ばかげた質問で申し訳ありませんが、これはパンダです。DataFrameで2つの列を組み合わせるのは役に立ちませんでした。

回答:



65

この質問はすでに回答済みですが、これまでに説明されていないいくつかの有用な方法を組み合わせて、これまでに提案されたすべての方法をパフォーマンスの観点から比較するとよいと思います。

この問題に対するいくつかの有用な解決策を、パフォーマンスの高い順に示します。


DataFrame.agg

これは単純なstr.formatアプローチです。

df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

ここでf-stringフォーマットを使用することもできます。

df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

char.arrayベースの連結

列をとして連結するように変換してからchararrays、それらを一緒に追加します。

a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)

df['baz'] = (a + b' is ' + b).astype(str)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

リスト理解zip

パンダのリスト内包表記が過小評価されていることを誇張することはできません。

df['baz'] = [str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])]

または、を使用str.joinして連結します(スケーリングも向上します)。

df['baz'] = [
    ' '.join([str(x), 'is', y]) for x, y in zip(df['bar'], df['foo'])]

df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

文字列操作は本質的にベクトル化が難しく、ほとんどのパンダの「ベクトル化」関数は基本的にループのラッパーであるため、リスト内包表記は文字列操作に優れています。私はこのトピックについてパンダのForループで広範囲に書いています-いつ気にする必要がありますか?。一般に、インデックスの配置について心配する必要がない場合は、文字列および正規表現の操作を処理するときにリスト内包表記を使用します。

上記のリストcompは、デフォルトではNaNを処理しません。ただし、処理する必要がある場合を除いて、いつでもtryをラップする関数を作成できます。

def try_concat(x, y):
    try:
        return str(x) + ' is ' + y
    except (ValueError, TypeError):
        return np.nan


df['baz'] = [try_concat(x, y) for x, y in zip(df['bar'], df['foo'])]

perfplot パフォーマンス測定

ここに画像の説明を入力してください

perfplotを使用して生成されたグラフ。これが完全なコードリストです。

関数

def brenbarn(df):
    return df.assign(baz=df.bar.map(str) + " is " + df.foo)

def danielvelkov(df):
    return df.assign(baz=df.apply(
        lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1))

def chrimuelle(df):
    return df.assign(
        baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is '))

def vladimiryashin(df):
    return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1))

def erickfis(df):
    return df.assign(
        baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs1_format(df):
    return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1))

def cs1_fstrings(df):
    return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs2(df):
    a = np.char.array(df['bar'].values)
    b = np.char.array(df['foo'].values)

    return df.assign(baz=(a + b' is ' + b).astype(str))

def cs3(df):
    return df.assign(
        baz=[str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])])

4
パンダの文字列の連結について常に知りたかったのはそれだけですが、恐れすぎて質問しすぎました。
IANS

プロットを次のレベル104 (またはそれ以上)に更新してください。現在のプロットを10 3(今日の状態では非常に小さい1000)に制限した簡単な視覚的回答は、最終的にはcs3が最適であるということです。 brenbarnはcs3よりも指数関数的に見えないため、おそらく大規模なデータセットの場合、brenbarnが最良の(より速い)答えです。
VelizarVESSELINOV19年

1
@VelizarVESSELINOV更新されました!私が驚いたのは、numpyの連結がlistcompとpandasの連結の両方よりも遅いことです。
cs 9519年

1
あなたが使用して検討しているdf['bar'].tolist()df['foo'].tolist()してcs3()?私の推測では、「基本」時間はわずかに増加しますが、スケーリングは向上します。
shadowtalker

44

コードの問題は、すべての行に操作を適用したいということです。あなたがそれを書いた方法は、「bar」と「foo」の列全体を取り、それらを文字列に変換し、1つの大きな文字列を返します。あなたはそれを次のように書くことができます:

df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)

他の回答よりも長くなりますが、より一般的です(文字列ではない値で使用できます)。


13

あなたも使うことができます

df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')

1
df ['bar']は文字列列ではないため、これは機能しません。正しい割り当てはdf['bar'] = df['bar'].astype(str).str.cat(df['foo'], sep=' is ')です。
cbrnr 2018年

8
df.astype(str).apply(lambda x: ' is '.join(x), axis=1)

0    1 is a
1    2 is b
2    3 is c
dtype: object

この回答は、未定の列数(> 1)および未定の列名でも機能するため、他の回答よりも便利です。
johnDanger

4

@DanielVelkovの答えは適切ですが、文字列リテラルを使用する方が高速です。

# Daniel's
%timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# String literals - python 3
%timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

4

series.str.cat この問題に取り組む最も柔軟な方法は次のとおりです。

ために df = pd.DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

df.foo.str.cat(df.bar.astype(str), sep=' is ')

>>>  0    a is 1
     1    b is 2
     2    c is 3
     Name: foo, dtype: object

または

df.bar.astype(str).str.cat(df.foo, sep=' is ')

>>>  0    1 is a
     1    2 is b
     2    3 is c
     Name: bar, dtype: object

最も重要なのは(そしてとは異なり.join())、これにより、Null値を無視したり、na_repパラメーターで置き換えたりすることができます。


この機能が包まれていない理由.join()は私を混乱させます
johnDanger
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.