パンダ列にリストのすべての要素が含まれているかどうかを確認する

20

私はこのようなdfを持っています：

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})

そしてアイテムのリスト：

letters = ['a','c']

私の目標はframe、少なくとも2つの要素を含む行をすべて取得することですletters

私はこの解決策を思いつきました：

for i in letters:
    subframe = frame[frame['a'].str.contains(i)]

これは私が欲しいものを私に与えます、しかしそれはスケーラビリティの点で最良の解決策ではないかもしれません。「ベクトル化された」ソリューションはありますか？ありがとう

python pandas

— カウバー
ソース

4

すべての反復でサブフレームをオーバーライドするため、最後の文字を含む行のみが表示されます

— Tom Ron

@TomRonあなたは正しい、なんという失敗だ:)

— Kauber

12

シリーズのリストを作成してから、ベクトル化を適用しますnp.all。

contains = [frame['a'].str.contains(i) for i in letters]
resul = frame[np.all(contains, axis=0)]

それは期待通りです：

       a
0  a,b,c
1  a,c,f
3  a,z,c

— セルジュ・バレスタ
ソース

3

100kにおめでとう！

— Peter Haddad

14

1つの方法はstr.split、を使用して列の値をリストに分割し、が取得したリストのであるかどうかを確認することset(letters)ですsubset。

letters_s = set(letters)
frame[frame.a.str.split(',').map(letters_s.issubset)]

     a
0  a,b,c
1  a,c,f
3  a,z,c

基準：

def serge(frame):
    contains = [frame['a'].str.contains(i) for i in letters]
    return frame[np.all(contains, axis=0)]

def yatu(frame):
    letters_s = set(letters)
    return frame[frame.a.str.split(',').map(letters_s.issubset)]

def austin(frame):
    mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
    return frame[mask]

def datanovice(frame):
    s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()
    return frame.loc[s[s.ge(2)].index.unique()]

perfplot.show(
    setup=lambda n: pd.concat([frame]*n, axis=0).reset_index(drop=True), 

    kernels=[
        lambda df: serge(df),
        lambda df: yatu(df),
        lambda df: df[df['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))],
        lambda df: austin(df),
        lambda df: datanovice(df),
    ],

    labels=['serge', 'yatu', 'bruno','austin', 'datanovice'],
    n_range=[2**k for k in range(0, 18)],
    equality_check=lambda x, y: x.equals(y),
    xlabel='N'
)

— ヤツ
ソース

TypeError: unhashable type: 'set'コードを実行すると取得できますか？提供されたフレーム上で実行しました

— Datanovice

どのバージョン？@Datanoviceダブルチェックとすべてが

— 正常に

私のパンダは1.0.3、Pythonは3.7おそらく私だけです

— Datanovice

3

@Datanovice私はあなたがこれのためにpython 3.8を必要とすると思います:)

— anky

2

おかげで、@ Datanoviceと同じエラーが発生し、残念ながらPython 3.8にジャンプできません

— Kauber

7

使用できますnp.intersect1d：

import pandas as pd
import numpy as np

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})
letters = ['a','c']

mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
print(frame[mask])

    a
0  a,b,c
1  a,c,f
3  a,z,c

— オースティン
ソース

7

これもそれを解決します：

frame[frame['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))]

— ブルーノ・メロ
ソース

6

set.issubsetを使用します。

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c','x,y']})
letters = ['a','c']

frame[frame['a'].apply(lambda x: set(letters).issubset(x))]

Out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

— ManojK
ソース

5

IIUC、explodeおよびブールフィルター

アイデアは、単一のシリーズを作成することです。その後、累積合計を使用して、インデックスによってグループ化し、リストの真の発生回数をカウントできます。

s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()

print(s)

0    1.0
0    1.0
0    2.0
1    1.0
1    2.0
1    2.0
2    0.0
2    0.0
2    0.0
3    1.0
3    1.0
3    2.0

frame.loc[s[s.ge(2)].index.unique()]

out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

— Datanovice
ソース

1

frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

出力：

        a
 0  a,b,c
 1  a,c,f
 3  a,z,c

タイムイット

%%timeit
#hermes
frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

出力

300 µs ± 32.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

— エルメスモラレス
ソース