タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

5
「==」を使用すると、パンダでブールではなくシリーズが返されるのはなぜですか?
2行目で「==」の意味がわかりません。- テストではなく、ifステートメント がありません...-変数宣言ではありません... 私はこれまでこれまで見たことがdata.ctage==catありません、問題はパンダシリーズであり、テストではありません... for cat in data["categ"].unique(): subset = data[data.categ == cat] # Création du sous-échantillon print("-"*20) print('Catégorie : ' + cat) print("moyenne:\n",subset['montant'].mean()) print("mediane:\n",subset['montant'].median()) print("mode:\n",subset['montant'].mode()) print("VAR:\n",subset['montant'].var()) print("EC:\n",subset['montant'].std()) plt.figure(figsize=(5,5)) subset["montant"].hist(bins=30) # Crée l'histogramme plt.show() # Affiche l'histogramme

3
Pandas Dataframe-20年の履歴データから1日の特定の時間を削除
20年前の1つの証券の株式市場データがあります。データは現在、次の形式でPandas DataFrameにあります。 問題は、DataFrameに「営業時間外」の取引データが必要ないことです。問題の市場は午前9時30分から午後4時までです(各取引日の09時30分から16時)。この時間枠内にないデータのすべての行を削除したいと思います。 私の本能はPandasマスクを使用することです。これは、1日で特定の時間を必要とする場合の方法を知っています。 mask = (df['date'] > '2015-07-06 09:30:0') & (df['date'] <= '2015-07-06 16:00:0') sub = df.loc[mask] ただし、20年の期間の1日の特定の時間のデータを削除するために回転ベースでどのように使用するかはわかりません。

3
さまざまなPythonプロセスでDataFrameをリアルタイムで更新する
たとえば、キュ​​ーイングシステムから毎秒約500行(これをさらに並列化して約50 psに減らすことができます)でリアルタイムにデータを収集し、それを DataFrame。 rq = MyRedisQueue(..) df = pd.DataFrame() while 1: recv = rq.get(block=True) # some converting df.append(recv, ignore_index = True) ここで問題は、このデータに基づいてCPUをどのように利用するかです。したがって、私はGILの制限を完全に認識しており、ここでもマルチプロセッシングマネージャーの 名前空間を調べましたが、中央に保持されるデータフレームのレイテンシに関していくつかの欠点があるようです。それを掘り下げる前に、プロセス間に適用するために私が認識したものを試してみましたが、これは遅くなり、オーバーヘッドが多すぎます。pool.mappickle したがって、これが最後に疑問に思いました。1秒あたり500行(または1秒あたり50行)の挿入を別のプロセスに転送して、子のデータに統計とヒューリスティックを適用するためのCPU時間を残すにはどうすればよいでしょうか。プロセス? 多分それは2つのプロセスの間にカスタムTCPソケットまたはキューシステムを実装する方が良いでしょうか?または、親プロセス内の1つの大きなデータフレームへの高速アクセスを実際に許可するための実装pandasまたは他のライブラリーはありますか?パンダ大好き!

1
Python cartopyを使用して国にラベルを付ける方法は?
python3とcartopyを使用して、次のコードを記述します。 import matplotlib.pyplot as plt import cartopy import cartopy.io.shapereader as shpreader import cartopy.crs as ccrs ax = plt.axes(projection=ccrs.PlateCarree()) ax.add_feature(cartopy.feature.LAND) ax.add_feature(cartopy.feature.OCEAN) ax.add_feature(cartopy.feature.COASTLINE) ax.add_feature(cartopy.feature.BORDERS, linestyle='-', alpha=.5) ax.add_feature(cartopy.feature.LAKES, alpha=0.95) ax.add_feature(cartopy.feature.RIVERS) ax.set_extent([-150, 60, -25, 60]) shpfilename = shpreader.natural_earth(resolution='110m', category='cultural', name='admin_0_countries') reader = shpreader.Reader(shpfilename) countries = reader.records() for country in countries: if country.attributes['SOVEREIGNT'] == "Bulgaria": …

4
Pandasで重複する値を複数の一意の文字列に置き換えるにはどうすればよいですか?
import pandas as pd import numpy as np data = {'Name':['Tom', 'Tom', 'Jack', 'Terry'], 'Age':[20, 21, 19, 18]} df = pd.DataFrame(data) このようなデータフレームがあるとしましょう。Name列の値「Tom」を確認する方法を見つけようとしています。最初に見つかった場合は、値「FirstTom」に置き換え、2回目に表示された場合は、値「SecondTom」に置き換えます。 。これをどのように達成しますか?以前、replaceメソッドを使用しましたが、すべてのTomを単一の値に置き換えるためにのみ使用しました。値の最後に1を追加したくありませんが、文字列を完全に別のものに変更します。 編集: dfが以下のようになっている場合、最初の列と2番目の列でトムを確認し、最初のインスタンスをFirstTomに、2番目のインスタンスをSecondTomに置き換えるにはどうすればよいでしょうか。 data = {'Name':['Tom', 'Jerry', 'Jack', 'Terry'], 'OtherName':[Tom, John, Bob,Steve]}
8 python  pandas 


4
パンダは結果を列にグループ化
私はこのようなデータフレームを持っています: x = pd.DataFrame({ 'audio': ['audio1', 'audio1', 'audio2', 'audio2', 'audio3', 'audio3'], 'text': ['text1', 'text2', 'text3', 'text4', 'text5', 'text6'], 'login': ['operator1', 'operator2', 'operator3', 'operator4', 'operator5', 'operator6'] }) 私はそれを次のように集計しようとしています: x1 = x.groupby('audio')['text'].agg( [ ('text1', lambda x : x.iat[0]), ('text2', lambda x : x.iat[1]), ('leven', lambda x: Levenshtein.distance(x.iat[0], x.iat[1])) #some function works with …

5
列の値に基づいてパンダデータフレームのリストから要素を削除します
次のデータフレームがあるとしましょう: a = [[1,2,3,4,5,6],[23,23,212,223,1,12]] b = [1,1] df = pd.DataFrame(zip(a,b), columns = ['a', 'b']) そして、私の目標は、シリーズBにあるシリーズAのリストの要素を削除することです。これを行う私の試みは以下のとおりです。 df['a'] = [i.remove(j) for i,j in zip(df.a, df.b)] 論理は私には聞こえますが、結局、df ['a']が一連のヌルになっています。ここで何が起こっているのですか?
8 python  pandas 

4
パンダでDataFrameのデータレイアウトを効率的に変更するにはどうすればよいですか?
2つの列に値が配置されたDataFrameがあります。表T1を参照してください。表T2に示すようにデータレイアウトを作成する方法で値を再配置したい。T2の行は、値の「スライディングウィンドウ」を転置し、テーブルT1の列aを下に移動することによって作成されます。パンダでこれを効率的に行うための賢い方法はありますか? T1 T2 a | b A | B | C | D ------ --------------- 41 | 5 41 | 42 | 43 | 7 42 | 6 42 | 43 | 44 | 8 43 | 7 --> 43 | 44 | 45 | 9 44 | 8 44 …
8 python  pandas 

3
パンダで正午から正午までの毎日の平均を計算する方法は?
私はpythonとpandasにかなり慣れていないので、将来の誤解をお詫びします。 時間ごとの値を持つパンダDataFrameがあり、次のようになっています。 2014-04-01 09:00:00 52.9 41.1 36.3 2014-04-01 10:00:00 56.4 41.6 70.8 2014-04-01 11:00:00 53.3 41.2 49.6 2014-04-01 12:00:00 50.4 39.5 36.6 2014-04-01 13:00:00 51.1 39.2 33.3 2016-11-30 16:00:00 16.0 13.5 36.6 2016-11-30 17:00:00 19.6 17.4 44.3 ここで、2014-04-01 12:00から2014-04-02 11:00までの各列の24時間平均値を計算する必要があるので、正午から正午までの毎日の平均を求めます。 残念ながら、どうすればよいかわかりません。私はgroupbyを使用するためのいくつかの提案を読みましたが、本当にその方法がわかりません... 事前にどうもありがとうございました!どんな助けでも大歓迎です!!

2
オプションの依存関係「テーブル」がありません。パンダでto_hdf
次のコードは私にエラーを与えています。 import pandas as pd df = pd.DataFrame({'a' : [1,2,3]}) df.to_hdf('temp.h5', key='df', mode='w') これは私にエラーを与えています。 オプションの依存関係「テーブル」がありません。テーブルをインストールするには、pipまたはcondaを使用します。 ImportErrorを既に試し ましたHDFStoreにはPyTablesが必要ですテーブルという名前のモジュールはありません。まだ同じエラー。 hdfファイルを読み取るときに同じエラーが発生します。そしてtables、私のPython用にすでにインストールされています。 一部のバージョン情報。 python 3.7.4 パンダ0.25.2 ウインドウズ10 PS:これはrepl https://repl.it/で再現できます。 更新: フォローしてみました。 import tables このエラーが発生しました: ImportError:['hdf5.dll'、 'hdf5dll.dll']をロードできませんでした。システムパスにあることを確認してください。 パンダはこれについて正確なメッセージを出していないようです。実際に存在する場合、依存関係が欠けていると言っています。 誰かがこれを解決する方法を知っているなら。それが役立ちます。
8 python  pandas  pip  hdf5  pytables 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.