プログラミング dataframe

1

こんにちは私はパンダのconcat、join、mergeメソッドを掘り下げてきましたが、必要なものが見つからないようです。 2つのデータフレームがあるとしましょう A = pd.DataFrame("A",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) B = pd.DataFrame("B",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) >>> A Col 1 Col 2 Col 3 0 A A A 1 A A A 2 A A A 3 A A A 4 A A A >>> B Col 1 Col 2 Col 3 …

9 python pandas dataframe

3

パンダ-最初の非NULL値までナンを埋める

私のようなデータフレームがあります A B C 1 nan nan 2 nan 5 3 3 nan 4 nan nan 最初の非NULL値までの各系列のNULL（0）のみを埋めるにはどうすればよいですか。 A B C 1 0 0 2 0 5 3 3 nan 4 nan nan

9 python pandas dataframe null

5

「==」を使用すると、パンダでブールではなくシリーズが返されるのはなぜですか？

2行目で「==」の意味がわかりません。- テストではなく、ifステートメントがありません...-変数宣言ではありません... 私はこれまでこれまで見たことがdata.ctage==catありません、問題はパンダシリーズであり、テストではありません... for cat in data["categ"].unique(): subset = data[data.categ == cat] # Création du sous-échantillon print("-"*20) print('Catégorie : ' + cat) print("moyenne:\n",subset['montant'].mean()) print("mediane:\n",subset['montant'].median()) print("mode:\n",subset['montant'].mode()) print("VAR:\n",subset['montant'].var()) print("EC:\n",subset['montant'].std()) plt.figure(figsize=(5,5)) subset["montant"].hist(bins=30) # Crée l'histogramme plt.show() # Affiche l'histogramme

8 python pandas dataframe matrix-indexing

3

Pandas Dataframe-20年の履歴データから1日の特定の時間を削除

20年前の1つの証券の株式市場データがあります。データは現在、次の形式でPandas DataFrameにあります。問題は、DataFrameに「営業時間外」の取引データが必要ないことです。問題の市場は午前9時30分から午後4時までです（各取引日の09時30分から16時）。この時間枠内にないデータのすべての行を削除したいと思います。私の本能はPandasマスクを使用することです。これは、1日で特定の時間を必要とする場合の方法を知っています。 mask = (df['date'] > '2015-07-06 09:30:0') & (df['date'] <= '2015-07-06 16:00:0') sub = df.loc[mask] ただし、20年の期間の1日の特定の時間のデータを削除するために回転ベースでどのように使用するかはわかりません。

8 python pandas numpy dataframe

3

さまざまなPythonプロセスでDataFrameをリアルタイムで更新する

たとえば、キューイングシステムから毎秒約500行（これをさらに並列化して約50 psに減らすことができます）でリアルタイムにデータを収集し、それを DataFrame。 rq = MyRedisQueue(..) df = pd.DataFrame() while 1: recv = rq.get(block=True) # some converting df.append(recv, ignore_index = True) ここで問題は、このデータに基づいてCPUをどのように利用するかです。したがって、私はGILの制限を完全に認識しており、ここでもマルチプロセッシングマネージャーの名前空間を調べましたが、中央に保持されるデータフレームのレイテンシに関していくつかの欠点があるようです。それを掘り下げる前に、プロセス間に適用するために私が認識したものを試してみましたが、これは遅くなり、オーバーヘッドが多すぎます。pool.mappickle したがって、これが最後に疑問に思いました。1秒あたり500行（または1秒あたり50行）の挿入を別のプロセスに転送して、子のデータに統計とヒューリスティックを適用するためのCPU時間を残すにはどうすればよいでしょうか。プロセス？多分それは2つのプロセスの間にカスタムTCPソケットまたはキューシステムを実装する方が良いでしょうか？または、親プロセス内の1つの大きなデータフレームへの高速アクセスを実際に許可するための実装pandasまたは他のライブラリーはありますか？パンダ大好き！

8 python-3.x pandas dataframe python-multiprocessing

1

Python cartopyを使用して国にラベルを付ける方法は？

python3とcartopyを使用して、次のコードを記述します。 import matplotlib.pyplot as plt import cartopy import cartopy.io.shapereader as shpreader import cartopy.crs as ccrs ax = plt.axes(projection=ccrs.PlateCarree()) ax.add_feature(cartopy.feature.LAND) ax.add_feature(cartopy.feature.OCEAN) ax.add_feature(cartopy.feature.COASTLINE) ax.add_feature(cartopy.feature.BORDERS, linestyle='-', alpha=.5) ax.add_feature(cartopy.feature.LAKES, alpha=0.95) ax.add_feature(cartopy.feature.RIVERS) ax.set_extent([-150, 60, -25, 60]) shpfilename = shpreader.natural_earth(resolution='110m', category='cultural', name='admin_0_countries') reader = shpreader.Reader(shpfilename) countries = reader.records() for country in countries: if country.attributes['SOVEREIGNT'] == "Bulgaria": …

8 python pandas numpy dataframe cartopy

4

パンダは結果を列にグループ化

私はこのようなデータフレームを持っています： x = pd.DataFrame({ 'audio': ['audio1', 'audio1', 'audio2', 'audio2', 'audio3', 'audio3'], 'text': ['text1', 'text2', 'text3', 'text4', 'text5', 'text6'], 'login': ['operator1', 'operator2', 'operator3', 'operator4', 'operator5', 'operator6'] }) 私はそれを次のように集計しようとしています： x1 = x.groupby('audio')['text'].agg( [ ('text1', lambda x : x.iat[0]), ('text2', lambda x : x.iat[1]), ('leven', lambda x: Levenshtein.distance(x.iat[0], x.iat[1])) #some function works with …

8 python pandas dataframe

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」