パンダのデータフレーム文字列エントリを分割(分解)して行を分離する


200

pandas dataframeテキスト文字列の1つの列にカンマ区切りの値が含まれているがあります。各CSVフィールドを分割し、エントリごとに新しい行を作成します(CSVはクリーンで、 '、'でのみ分割する必要があると想定しています)。たとえば、次のaようになりbます。

In [7]: a
Out[7]: 
    var1  var2
0  a,b,c     1
1  d,e,f     2

In [8]: b
Out[8]: 
  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5    f     2

これまでにさまざまな簡単な関数を試しましたが、この.applyメソッドを軸で使用すると、戻り値として1行しか受け入れられないようで.transform、作業できません。どんな提案も大歓迎です!

データの例:

from pandas import DataFrame
import numpy as np
a = DataFrame([{'var1': 'a,b,c', 'var2': 1},
               {'var1': 'd,e,f', 'var2': 2}])
b = DataFrame([{'var1': 'a', 'var2': 1},
               {'var1': 'b', 'var2': 1},
               {'var1': 'c', 'var2': 1},
               {'var1': 'd', 'var2': 2},
               {'var1': 'e', 'var2': 2},
               {'var1': 'f', 'var2': 2}])

numpyを実行するとDataFrameメタデータが失われるため、これが機能しないことはわかっていますが、これで、私が何をしようとしたのかがわかるはずです。

def fun(row):
    letters = row['var1']
    letters = letters.split(',')
    out = np.array([row] * len(letters))
    out['var1'] = letters
a['idx'] = range(a.shape[0])
z = a.groupby('idx')
z.transform(fun)

2
このページの他の解決策は機能していますが、次の短い効果的な解決策を見つけました。stackoverflow.com/questions/27263805/…–
desaiankitb

1
他の人は、このページに到着し、複数の列を保持して解決策を探しているために、この質問を見て:stackoverflow.com/questions/17116814/...
ソス

回答:


81

このようなものはどうですか:

In [55]: pd.concat([Series(row['var2'], row['var1'].split(','))              
                    for _, row in a.iterrows()]).reset_index()
Out[55]: 
  index  0
0     a  1
1     b  1
2     c  1
3     d  2
4     e  2
5     f  2

次に、列の名前を変更する必要があります


1
これでうまくいくようです。ご協力いただきありがとうございます!ただし、一般的に、Split-Apply-Combineには、Applyが任意のサイズ(ただし、すべてのチャンクで一貫性がある)のデータフレームを返し、Combineが返されたDFだけをスタックするという好ましいアプローチがありますか?
Vincent

GroupBy.applyは動作するはずです(私はマスターに対して試しただけです)。ただし、この場合、行ごとにデータを生成しているので、グループ化の追加の手順を実行する必要はありません。
Chang She

1
やあみんな。こんなに遅くなって申し訳ありませんが、これに対するより良い解決策がないかと思っています。これがチケットのように思えるので、私は初めてイローを試すようにしています。提案された解決策にも混乱しています。「_」は何を表していますか?ソリューションがどのように機能するか説明できますか?あなたの--Thank
horatio1701d

11
ソリューションを3列以上に拡張できますか?
horatio1701d 2014年


146

UPDATE2:normal複数のlist列で機能する、より一般的なベクトル化関数

def explode(df, lst_cols, fill_value='', preserve_index=False):
    # make sure `lst_cols` is list-alike
    if (lst_cols is not None
        and len(lst_cols) > 0
        and not isinstance(lst_cols, (list, tuple, np.ndarray, pd.Series))):
        lst_cols = [lst_cols]
    # all columns except `lst_cols`
    idx_cols = df.columns.difference(lst_cols)
    # calculate lengths of lists
    lens = df[lst_cols[0]].str.len()
    # preserve original index values    
    idx = np.repeat(df.index.values, lens)
    # create "exploded" DF
    res = (pd.DataFrame({
                col:np.repeat(df[col].values, lens)
                for col in idx_cols},
                index=idx)
             .assign(**{col:np.concatenate(df.loc[lens>0, col].values)
                            for col in lst_cols}))
    # append those rows that have empty lists
    if (lens == 0).any():
        # at least one list in cells is empty
        res = (res.append(df.loc[lens==0, idx_cols], sort=False)
                  .fillna(fill_value))
    # revert the original index order
    res = res.sort_index()
    # reset index if requested
    if not preserve_index:        
        res = res.reset_index(drop=True)
    return res

デモ:

複数のlist列-すべてのlist列の各行の要素数は同じである必要があります。

In [134]: df
Out[134]:
   aaa  myid        num          text
0   10     1  [1, 2, 3]  [aa, bb, cc]
1   11     2         []            []
2   12     3     [1, 2]      [cc, dd]
3   13     4         []            []

In [135]: explode(df, ['num','text'], fill_value='')
Out[135]:
   aaa  myid num text
0   10     1   1   aa
1   10     1   2   bb
2   10     1   3   cc
3   11     2
4   12     3   1   cc
5   12     3   2   dd
6   13     4

元のインデックス値を保持:

In [136]: explode(df, ['num','text'], fill_value='', preserve_index=True)
Out[136]:
   aaa  myid num text
0   10     1   1   aa
0   10     1   2   bb
0   10     1   3   cc
1   11     2
2   12     3   1   cc
2   12     3   2   dd
3   13     4

セットアップ:

df = pd.DataFrame({
 'aaa': {0: 10, 1: 11, 2: 12, 3: 13},
 'myid': {0: 1, 1: 2, 2: 3, 3: 4},
 'num': {0: [1, 2, 3], 1: [], 2: [1, 2], 3: []},
 'text': {0: ['aa', 'bb', 'cc'], 1: [], 2: ['cc', 'dd'], 3: []}
})

CSV列:

In [46]: df
Out[46]:
        var1  var2 var3
0      a,b,c     1   XX
1  d,e,f,x,y     2   ZZ

In [47]: explode(df.assign(var1=df.var1.str.split(',')), 'var1')
Out[47]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ

この小さなトリックを使用して、CSVのような列をlist列に変換できます。

In [48]: df.assign(var1=df.var1.str.split(','))
Out[48]:
              var1  var2 var3
0        [a, b, c]     1   XX
1  [d, e, f, x, y]     2   ZZ

更新: 一般的なベクトル化されたアプローチ(複数の列でも機能します):

元のDF:

In [177]: df
Out[177]:
        var1  var2 var3
0      a,b,c     1   XX
1  d,e,f,x,y     2   ZZ

解決:

まず、CSV文字列をリストに変換しましょう。

In [178]: lst_col = 'var1' 

In [179]: x = df.assign(**{lst_col:df[lst_col].str.split(',')})

In [180]: x
Out[180]:
              var1  var2 var3
0        [a, b, c]     1   XX
1  [d, e, f, x, y]     2   ZZ

これでこれを行うことができます:

In [181]: pd.DataFrame({
     ...:     col:np.repeat(x[col].values, x[lst_col].str.len())
     ...:     for col in x.columns.difference([lst_col])
     ...: }).assign(**{lst_col:np.concatenate(x[lst_col].values)})[x.columns.tolist()]
     ...:
Out[181]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ

古い答え:

@AFinkelsteinソリューションに触発されて、2列以上のDFに適用でき、AFinkelsteinのソリューションと同じくらい高速で、より一般化したい場合があります)。

In [2]: df = pd.DataFrame(
   ...:    [{'var1': 'a,b,c', 'var2': 1, 'var3': 'XX'},
   ...:     {'var1': 'd,e,f,x,y', 'var2': 2, 'var3': 'ZZ'}]
   ...: )

In [3]: df
Out[3]:
        var1  var2 var3
0      a,b,c     1   XX
1  d,e,f,x,y     2   ZZ

In [4]: (df.set_index(df.columns.drop('var1',1).tolist())
   ...:    .var1.str.split(',', expand=True)
   ...:    .stack()
   ...:    .reset_index()
   ...:    .rename(columns={0:'var1'})
   ...:    .loc[:, df.columns]
   ...: )
Out[4]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ

7
おい、Git pandasでディスカッションを開くことができるなら、このような組み込み関数が必要だと思います!!! 私はパンダのSOで非リスト化とネスト解除について非常に多くの質問を見てきました
YOBEN_S

これを複数の列に使用する方法。2つの列にコンマ区切りのデータがあり、それを順番に実行したい場合は、
Jaskaran Singh Puri

@JaskaranSinghPuri、最初にすべてのCSV列をリストに変換する必要があります。
MaxU、

1
残念ながら、リストの要素がタプルの場合は機能しません。しかし、タプル全体を文字列に変換した後、それは魅力のように機能します!
グイド

2
ウェンベンの嘆願はパンダの神々に聞かれたようで.explode()、APIにメソッドがインストールされています(この回答も参照)。
cs95

117

受け入れられた答えよりも速い何かを見つけるための苦しい実験の後、私はこれを機能させました。私が試したデータセットでは、約100倍速く実行されました。

誰かがこれをよりエレガントにする方法を知っているなら、ぜひ私のコードを修正してください。保持したい他の列をインデックスとして設定し、インデックスをリセットして列の名前を変更しないと機能する方法を見つけることができませんでしたが、他に機能するものがあると想像します。

b = DataFrame(a.var1.str.split(',').tolist(), index=a.var2).stack()
b = b.reset_index()[[0, 'var2']] # var1 variable is currently labeled 0
b.columns = ['var1', 'var2'] # renaming var1

2
このソリューションは、大幅に高速働き、少ないメモリを使用するように見える
シリル・

1
これは素晴らしいベクトル化されたパンダソリューションです。私はそれを探していました。ありがとう!
Dennis Golomazov

私は自分のデータセットでこれをしようとすると、私は得続けるTypeError: object of type 'float' has no len()非常に最初のステップで(DataFrame(df.var1.str.split(',').tolist())
user5359531

@ user5359531あなたのデータセットはおそらくNaNその列にいくつかあるので、置き換えはb = DataFrame(a.var1.str.split(',').values.tolist(), index=a.var2).stack()
Flair

ただここに、このソリューションの例を使った素敵な記事があります。
hhbilly

46

これ私がこの一般的なタスクのために作成した関数です。Series/ stackメソッドよりも効率的です。列の順序と名前は保持されます。

def tidy_split(df, column, sep='|', keep=False):
    """
    Split the values of a column and expand so the new DataFrame has one split
    value per row. Filters rows where the column is missing.

    Params
    ------
    df : pandas.DataFrame
        dataframe with the column to split and expand
    column : str
        the column to split and expand
    sep : str
        the string used to split the column's values
    keep : bool
        whether to retain the presplit value as it's own row

    Returns
    -------
    pandas.DataFrame
        Returns a dataframe with the same columns as `df`.
    """
    indexes = list()
    new_values = list()
    df = df.dropna(subset=[column])
    for i, presplit in enumerate(df[column].astype(str)):
        values = presplit.split(sep)
        if keep and len(values) > 1:
            indexes.append(i)
            new_values.append(presplit)
        for value in values:
            indexes.append(i)
            new_values.append(value)
    new_df = df.iloc[indexes, :].copy()
    new_df[column] = new_values
    return new_df

この関数を使用すると、元の質問は次のように簡単です。

tidy_split(a, 'var1', sep=',')

1
これは猛烈に速いです!どうもありがとうございました。
Anurag N. Sharma

42

パンダ> = 0.25

シリーズおよびデータフレームのメソッドを定義.explode()する方法その爆発のリストを別の行に。リストのような列の分解に関するドキュメントセクションをご覧ください。

カンマ区切りの文字列のリストがあるので、文字列をコンマで分割して要素のリストを取得し、explodeその列を呼び出します。

df = pd.DataFrame({'var1': ['a,b,c', 'd,e,f'], 'var2': [1, 2]})
df
    var1  var2
0  a,b,c     1
1  d,e,f     2

df.assign(var1=df['var1'].str.split(',')).explode('var1')

  var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
1    f     2

explode(今のところ)単一の列のみ機能することに注意してください


NaNと空のリストは、適切に処理するためにフープをジャンプする必要なしに、それらに値する処理を取得します。

df = pd.DataFrame({'var1': ['d,e,f', '', np.nan], 'var2': [1, 2, 3]})
df
    var1  var2
0  d,e,f     1
1            2
2    NaN     3

df['var1'].str.split(',')

0    [d, e, f]
1           []
2          NaN

df.assign(var1=df['var1'].str.split(',')).explode('var1')

  var1  var2
0    d     1
0    e     1
0    f     1
1          2  # empty list entry becomes empty string after exploding 
2  NaN     3  # NaN left un-touched

これは、ravel+ repeatベースのソリューション(空のリストを完全に無視し、NaNを窒息させる)よりも大きな利点です。


4
これは最も簡単で、私の場合に最適です!ありがとう!
Isaac Sim

14

同様の質問:パンダ:列内のテキストを複数の行に分割するにはどうすればよいですか?

あなたがすることができます:

>> a=pd.DataFrame({"var1":"a,b,c d,e,f".split(),"var2":[1,2]})
>> s = a.var1.str.split(",").apply(pd.Series, 1).stack()
>> s.index = s.index.droplevel(-1)
>> del a['var1']
>> a.join(s)
   var2 var1
0     1    a
0     1    b
0     1    c
1     2    d
1     2    e
1     2    f

2
名前を変更するコードをもう1つ追加すると機能します s.name = 'var1'
Jesse

14

TL; DR

import pandas as pd
import numpy as np

def explode_str(df, col, sep):
    s = df[col]
    i = np.arange(len(s)).repeat(s.str.count(sep) + 1)
    return df.iloc[i].assign(**{col: sep.join(s).split(sep)})

def explode_list(df, col):
    s = df[col]
    i = np.arange(len(s)).repeat(s.str.len())
    return df.iloc[i].assign(**{col: np.concatenate(s)})

デモンストレーション

explode_str(a, 'var1', ',')

  var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
1    f     2

dリストを持つ新しいデータフレームを作成しましょう

d = a.assign(var1=lambda d: d.var1.str.split(','))

explode_list(d, 'var1')

  var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
1    f     2

一般的なコメント

np.arangewith repeatを使用して、で使用できるデータフレームインデックスの位置を生成しilocます。

よくある質問

なぜ使用しないのlocですか?

インデックスは一意ではない可能性があるため、使用locすると、クエリされたインデックスに一致するすべての行が返されます。

values属性を使用してそれをスライスしませんか?

を呼び出すときにvalues、データフレーム全体が1つのまとまった「ブロック」内にある場合、Pandasは「ブロック」である配列のビューを返します。それ以外の場合、パンダは新しいアレイをまとめる必要があります。コブリングするとき、その配列は均一なdtypeでなければなりません。多くの場合、これはdtypeがである配列を返すことを意味しobjectます。属性ilocをスライスする代わりに使用valuesすることで、私はそれに対処する必要がなくなります。

なぜ使うのassign

私が使用している場合assign、私は爆発していたのと同じカラム名を使用して、私は、既存の列を上書きし、データフレーム内での位置を維持します。

インデックス値が繰り返されるのはなぜですか?

iloc繰り返し位置で使用することにより、結果のインデックスは同じ繰り返しパターンを示します。リストまたは文字列の各要素に対して1回繰り返します。
これは、reset_index(drop=True)


文字列の場合

文字列を途中で分割する必要はありません。したがって、代わりに、sep分割する場合、結果のリストの長さがセパレーターの数よりも1つ多いと想定して、引数の出現をカウントします。

次に、それsepjoin文字列に使用しますsplit

def explode_str(df, col, sep):
    s = df[col]
    i = np.arange(len(s)).repeat(s.str.count(sep) + 1)
    return df.iloc[i].assign(**{col: sep.join(s).split(sep)})

リスト用

文字列の場合と同様ですsepが、既に分割されているので、出現回数を数える必要はありません。

私はNumpyを使用しconcatenateてリストをまとめます。

import pandas as pd
import numpy as np

def explode_list(df, col):
    s = df[col]
    i = np.arange(len(s)).repeat(s.str.len())
    return df.iloc[i].assign(**{col: np.concatenate(s)})


私はこれが好きです。本当に簡潔で、パフォーマンスも本当に良いはずです。ただし、1つの質問:df.iloc [i]はデータフレームの繰り返し行と同じですか、それともそれよりも効率的ですか?ありがとう!
Tim

7

データフレームの構造を変更せずにデータフレームを分割して分解する可能性があります

特定の列のデータを分割して展開する

入力:

    var1    var2
0   a,b,c   1
1   d,e,f   2



#Get the indexes which are repetative with the split 
temp = df['var1'].str.split(',')
df = df.reindex(df.index.repeat(temp.apply(len)))


df['var1'] = np.hstack(temp)

でる:

    var1    var2
0   a   1
0   b   1
0   c   1
1   d   2
1   e   2
1   f   2

編集-1

複数の列の行の分割と展開

Filename    RGB                                             RGB_type
0   A   [[0, 1650, 6, 39], [0, 1691, 1, 59], [50, 1402...   [r, g, b]
1   B   [[0, 1423, 16, 38], [0, 1445, 16, 46], [0, 141...   [r, g, b]

参照列に基づいてインデックスを再作成し、列の値情報をスタックに揃えます

df = df.reindex(df.index.repeat(df['RGB_type'].apply(len)))
df = df.groupby('Filename').apply(lambda x:x.apply(lambda y: pd.Series(y.iloc[0])))
df.reset_index(drop=True).ffill()

でる:

                Filename    RGB_type    Top 1 colour    Top 1 frequency Top 2 colour    Top 2 frequency
    Filename                            
 A  0       A   r   0   1650    6   39
    1       A   g   0   1691    1   59
    2       A   b   50  1402    49  187
 B  0       B   r   0   1423    16  38
    1       B   g   0   1445    16  46
    2       B   b   0   1419    16  39

5

任意の数の列を持つデータフレームのソリューションを思いつきました(同時に一度に1つの列のエントリのみを分離しています)。

def splitDataFrameList(df,target_column,separator):
    ''' df = dataframe to split,
    target_column = the column containing the values to split
    separator = the symbol used to perform the split

    returns: a dataframe with each entry for the target column separated, with each element moved into a new row. 
    The values in the other columns are duplicated across the newly divided rows.
    '''
    def splitListToRows(row,row_accumulator,target_column,separator):
        split_row = row[target_column].split(separator)
        for s in split_row:
            new_row = row.to_dict()
            new_row[target_column] = s
            row_accumulator.append(new_row)
    new_rows = []
    df.apply(splitListToRows,axis=1,args = (new_rows,target_column,separator))
    new_df = pandas.DataFrame(new_rows)
    return new_df

2
いいが、悲しいことに遅いため、このtodictの()変換:(
MAQ

4

これは、splitpandas strアクセサーのメソッドを使用し、NumPyを使用して各行を単一の配列にフラット化する、かなり単純なメッセージです。

で非分割列を正しい回数繰り返すことにより、対応する値が取得されますnp.repeat

var1 = df.var1.str.split(',', expand=True).values.ravel()
var2 = np.repeat(df.var2.values, len(var1) / len(df))

pd.DataFrame({'var1': var1,
              'var2': var2})

  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5    f     2

1
それは非常に美しい答えになるでしょう。残念ながら、それは多くのカラムに対してスケーリングしませんか?
マイケルドー

3

さまざまな方法でリストを分解してメモリ不足の経験に苦労してきたので、どの回答に賛成するかを決めるのに役立ついくつかのベンチマークを用意しました。リストの長さとリストの数の比率を変えて、5つのシナリオをテストしました。以下の結果を共有する:

時間:(少ないほど良いです。クリックすると大きなバージョンが表示されます)

速度

ピーク時のメモリ使用量:(少ないほど良い)

ピーク時のメモリ使用量

結論

  • @MaxUの答え(更新2)、コードネーム連結は、ピークメモリ使用量を低く保ちながら、ほとんどすべての場合で最高の速度を提供します。
  • 比較的小さなリストで多数の行を処理する必要があり、ピークメモリを増やすことができる場合は、@ DMulliganの回答(コード名スタック)を参照してください。
  • 承認された@Changの回答は、行数は少ないがリストが非常に大きいデータフレームに適しています。

詳細(関数とベンチマークコード)は、このGitHub要旨に記載されています。ベンチマークの問題は簡略化されており、文字列をリストに分割することは含まれていないことに注意してください-ほとんどのソリューションは同様の方法で実行しました。


いい比較です!ベンチマークのプロットに使用したコードを投稿してよろしいですか?
MaxU

1
このリンクを参照してください:gist.github.com/krassowski/0259a2cd2ba774ccd9f69bbcc3187fbf(既に回答に含まれています)-IMOここにすべて貼り付けるには少し長すぎます。
Krassowski

2

優れた@DMulliganのソリューションに基づいて、データフレームの列を複数の行に分割し、元のデータフレームにマージする汎用のベクトル化(ループなし)関数を次に示します。またchange_column_order、この回答の優れた汎用関数を使用しています

def change_column_order(df, col_name, index):
    cols = df.columns.tolist()
    cols.remove(col_name)
    cols.insert(index, col_name)
    return df[cols]

def split_df(dataframe, col_name, sep):
    orig_col_index = dataframe.columns.tolist().index(col_name)
    orig_index_name = dataframe.index.name
    orig_columns = dataframe.columns
    dataframe = dataframe.reset_index()  # we need a natural 0-based index for proper merge
    index_col_name = (set(dataframe.columns) - set(orig_columns)).pop()
    df_split = pd.DataFrame(
        pd.DataFrame(dataframe[col_name].str.split(sep).tolist())
        .stack().reset_index(level=1, drop=1), columns=[col_name])
    df = dataframe.drop(col_name, axis=1)
    df = pd.merge(df, df_split, left_index=True, right_index=True, how='inner')
    df = df.set_index(index_col_name)
    df.index.name = orig_index_name
    # merge adds the column to the last place, so we need to move it back
    return change_column_order(df, col_name, orig_col_index)

例:

df = pd.DataFrame([['a:b', 1, 4], ['c:d', 2, 5], ['e:f:g:h', 3, 6]], 
                  columns=['Name', 'A', 'B'], index=[10, 12, 13])
df
        Name    A   B
    10   a:b     1   4
    12   c:d     2   5
    13   e:f:g:h 3   6

split_df(df, 'Name', ':')
    Name    A   B
10   a       1   4
10   b       1   4
12   c       2   5
12   d       2   5
13   e       3   6
13   f       3   6    
13   g       3   6    
13   h       3   6    

元のインデックスと列の順序が保持されることに注意してください。また、非順次インデックスを持つデータフレームでも機能します。


2
これは私のためにこれをクラックしました、素晴らしい仕事:stackoverflow.com/a/48554655/6672746
エヴァン

2

文字列関数splitは、オプションのブール引数 'expand'を取ることができます。

この引数を使用した解決策は次のとおりです。

(a.var1
  .str.split(",",expand=True)
  .set_index(a.var2)
  .stack()
  .reset_index(level=1, drop=True)
  .reset_index()
  .rename(columns={0:"var1"}))

1

上記のjilnの優れた答えを使用しましたが、拡張して複数の列を分割する必要がありました。私が共有すると思いました。

def splitDataFrameList(df,target_column,separator):
''' df = dataframe to split,
target_column = the column containing the values to split
separator = the symbol used to perform the split

returns: a dataframe with each entry for the target column separated, with each element moved into a new row. 
The values in the other columns are duplicated across the newly divided rows.
'''
def splitListToRows(row, row_accumulator, target_columns, separator):
    split_rows = []
    for target_column in target_columns:
        split_rows.append(row[target_column].split(separator))
    # Seperate for multiple columns
    for i in range(len(split_rows[0])):
        new_row = row.to_dict()
        for j in range(len(split_rows)):
            new_row[target_columns[j]] = split_rows[j][i]
        row_accumulator.append(new_row)
new_rows = []
df.apply(splitListToRows,axis=1,args = (new_rows,target_column,separator))
new_df = pd.DataFrame(new_rows)
return new_df

1

MultiIndexをサポートするMaxUの回答をアップグレード

def explode(df, lst_cols, fill_value='', preserve_index=False):
    """
    usage:
        In [134]: df
        Out[134]:
           aaa  myid        num          text
        0   10     1  [1, 2, 3]  [aa, bb, cc]
        1   11     2         []            []
        2   12     3     [1, 2]      [cc, dd]
        3   13     4         []            []

        In [135]: explode(df, ['num','text'], fill_value='')
        Out[135]:
           aaa  myid num text
        0   10     1   1   aa
        1   10     1   2   bb
        2   10     1   3   cc
        3   11     2
        4   12     3   1   cc
        5   12     3   2   dd
        6   13     4
    """
    # make sure `lst_cols` is list-alike
    if (lst_cols is not None
        and len(lst_cols) > 0
        and not isinstance(lst_cols, (list, tuple, np.ndarray, pd.Series))):
        lst_cols = [lst_cols]
    # all columns except `lst_cols`
    idx_cols = df.columns.difference(lst_cols)
    # calculate lengths of lists
    lens = df[lst_cols[0]].str.len()
    # preserve original index values    
    idx = np.repeat(df.index.values, lens)
    res = (pd.DataFrame({
                col:np.repeat(df[col].values, lens)
                for col in idx_cols},
                index=idx)
             .assign(**{col:np.concatenate(df.loc[lens>0, col].values)
                            for col in lst_cols}))
    # append those rows that have empty lists
    if (lens == 0).any():
        # at least one list in cells is empty
        res = (res.append(df.loc[lens==0, idx_cols], sort=False)
                  .fillna(fill_value))
    # revert the original index order
    res = res.sort_index()
    # reset index if requested
    if not preserve_index:        
        res = res.reset_index(drop=True)

    # if original index is MultiIndex build the dataframe from the multiindex
    # create "exploded" DF
    if isinstance(df.index, pd.MultiIndex):
        res = res.reindex(
            index=pd.MultiIndex.from_tuples(
                res.index,
                names=['number', 'color']
            )
    )
    return res

1

およびへの引数とを使用split(___, expand=True)したワンライナー:levelnamereset_index()

>>> b = a.var1.str.split(',', expand=True).set_index(a.var2).stack().reset_index(level=0, name='var1')
>>> b
   var2 var1
0     1    a
1     1    b
2     1    c
0     2    d
1     2    e
2     2    f

あなたがb質問のように正確に見える必要がある場合は、さらに行うことができます:

>>> b = b.reset_index(drop=True)[['var1', 'var2']]
>>> b
  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5    f     2

0

私はこの問題の次の解決策を考え出しました:

def iter_var1(d):
    for _, row in d.iterrows():
        for v in row["var1"].split(","):
            yield (v, row["var2"])

new_a = DataFrame.from_records([i for i in iter_var1(a)],
        columns=["var1", "var2"])

0

Pythonコピーパッケージを使用する別のソリューション

import copy
new_observations = list()
def pandas_explode(df, column_to_explode):
    new_observations = list()
    for row in df.to_dict(orient='records'):
        explode_values = row[column_to_explode]
        del row[column_to_explode]
        if type(explode_values) is list or type(explode_values) is tuple:
            for explode_value in explode_values:
                new_observation = copy.deepcopy(row)
                new_observation[column_to_explode] = explode_value
                new_observations.append(new_observation) 
        else:
            new_observation = copy.deepcopy(row)
            new_observation[column_to_explode] = explode_values
            new_observations.append(new_observation) 
    return_df = pd.DataFrame(new_observations)
    return return_df

df = pandas_explode(df, column_name)

0

ここにはたくさんの答えがありますが、組み込みのパンダが爆発する機能について誰も言及しなかったことに驚いています。以下のリンクを確認してください:https : //pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html#pandas.DataFrame.explode

何らかの理由でその関数にアクセスできなかったため、以下のコードを使用しました。

import pandas_explode
pandas_explode.patch()
df_zlp_people_cnt3 = df_zlp_people_cnt2.explode('people')

ここに画像の説明を入力してください

上記は私のデータのサンプルです。ご覧のとおり、people列には一連の人がいて、私はそれを爆発させようとしていました。私が提供したコードは、リストタイプのデータに対して機能します。したがって、コンマ区切りのテキストデータをリスト形式にしてみてください。また、私のコードは組み込み関数を使用しているため、カスタム/適用関数よりもはるかに高速です。

注:pipを使用してpandas_explodeをインストールする必要がある場合があります。


0

私にも同様の問題がありました。私の解決策は、データフレームを辞書のリストに変換してから、移行を行うことでした。これが関数です:

import copy
import re

def separate_row(df, column_name):
    ls = []
    for row_dict in df.to_dict('records'):
        for word in re.split(',', row_dict[column_name]):
            row = copy.deepcopy(row_dict)
            row[column_name]=word
            ls(row)
    return pd.DataFrame(ls)

例:

>>> from pandas import DataFrame
>>> import numpy as np
>>> a = DataFrame([{'var1': 'a,b,c', 'var2': 1},
               {'var1': 'd,e,f', 'var2': 2}])
>>> a
    var1  var2
0  a,b,c     1
1  d,e,f     2
>>> separate_row(a, "var1")
  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5    f     2

関数を少し変更して、リストタイプの行の分離をサポートすることもできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.