19列と約25万行のデータセットがあります。私はより大きなデータセットを扱ってきましたが、今度はパンダスが私の神経で遊ぶことにしました。
いくつかの単純なルールに基づいて、元のデータセットを3つのサブデータフレームに分割しようとしました。ただし、コードの実行には時間がかかります。フィルタリングのためだけに約15〜20秒。
コードのパフォーマンスを向上させる代替方法はありますか?
import pandas as pd
#read dataset
df = pd.read_csv('myData.csv')
#create a dataframe with col1 10 and col2 <= 15
df1 = df[(df.col1 == 10) & (df.col2 <= 15)]
df = df[~df.isin(df1)].dropna()
#create a dataframe with col3 7 and col4 >= 4
df2 = df[(df.col3 == 7) & (df.col4 >= 4)]
df = df[~df.isin(df2)].dropna()
最後にdf1, df2, df
、フィルタリングされたデータを含むデータフレームがあります。