タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

1
2つのデータフレームをマージし、名前で列レベルを追加する
こんにちは私はパンダのconcat、join、mergeメソッドを掘り下げてきましたが、必要なものが見つからないようです。 2つのデータフレームがあるとしましょう A = pd.DataFrame("A",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) B = pd.DataFrame("B",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) >>> A Col 1 Col 2 Col 3 0 A A A 1 A A A 2 A A A 3 A A A 4 A A A >>> B Col 1 Col 2 Col 3 …


5
「==」を使用すると、パンダでブールではなくシリーズが返されるのはなぜですか?
2行目で「==」の意味がわかりません。- テストではなく、ifステートメント がありません...-変数宣言ではありません... 私はこれまでこれまで見たことがdata.ctage==catありません、問題はパンダシリーズであり、テストではありません... for cat in data["categ"].unique(): subset = data[data.categ == cat] # Création du sous-échantillon print("-"*20) print('Catégorie : ' + cat) print("moyenne:\n",subset['montant'].mean()) print("mediane:\n",subset['montant'].median()) print("mode:\n",subset['montant'].mode()) print("VAR:\n",subset['montant'].var()) print("EC:\n",subset['montant'].std()) plt.figure(figsize=(5,5)) subset["montant"].hist(bins=30) # Crée l'histogramme plt.show() # Affiche l'histogramme

3
Pandas Dataframe-20年の履歴データから1日の特定の時間を削除
20年前の1つの証券の株式市場データがあります。データは現在、次の形式でPandas DataFrameにあります。 問題は、DataFrameに「営業時間外」の取引データが必要ないことです。問題の市場は午前9時30分から午後4時までです(各取引日の09時30分から16時)。この時間枠内にないデータのすべての行を削除したいと思います。 私の本能はPandasマスクを使用することです。これは、1日で特定の時間を必要とする場合の方法を知っています。 mask = (df['date'] > '2015-07-06 09:30:0') & (df['date'] <= '2015-07-06 16:00:0') sub = df.loc[mask] ただし、20年の期間の1日の特定の時間のデータを削除するために回転ベースでどのように使用するかはわかりません。

3
さまざまなPythonプロセスでDataFrameをリアルタイムで更新する
たとえば、キュ​​ーイングシステムから毎秒約500行(これをさらに並列化して約50 psに減らすことができます)でリアルタイムにデータを収集し、それを DataFrame。 rq = MyRedisQueue(..) df = pd.DataFrame() while 1: recv = rq.get(block=True) # some converting df.append(recv, ignore_index = True) ここで問題は、このデータに基づいてCPUをどのように利用するかです。したがって、私はGILの制限を完全に認識しており、ここでもマルチプロセッシングマネージャーの 名前空間を調べましたが、中央に保持されるデータフレームのレイテンシに関していくつかの欠点があるようです。それを掘り下げる前に、プロセス間に適用するために私が認識したものを試してみましたが、これは遅くなり、オーバーヘッドが多すぎます。pool.mappickle したがって、これが最後に疑問に思いました。1秒あたり500行(または1秒あたり50行)の挿入を別のプロセスに転送して、子のデータに統計とヒューリスティックを適用するためのCPU時間を残すにはどうすればよいでしょうか。プロセス? 多分それは2つのプロセスの間にカスタムTCPソケットまたはキューシステムを実装する方が良いでしょうか?または、親プロセス内の1つの大きなデータフレームへの高速アクセスを実際に許可するための実装pandasまたは他のライブラリーはありますか?パンダ大好き!

1
Python cartopyを使用して国にラベルを付ける方法は?
python3とcartopyを使用して、次のコードを記述します。 import matplotlib.pyplot as plt import cartopy import cartopy.io.shapereader as shpreader import cartopy.crs as ccrs ax = plt.axes(projection=ccrs.PlateCarree()) ax.add_feature(cartopy.feature.LAND) ax.add_feature(cartopy.feature.OCEAN) ax.add_feature(cartopy.feature.COASTLINE) ax.add_feature(cartopy.feature.BORDERS, linestyle='-', alpha=.5) ax.add_feature(cartopy.feature.LAKES, alpha=0.95) ax.add_feature(cartopy.feature.RIVERS) ax.set_extent([-150, 60, -25, 60]) shpfilename = shpreader.natural_earth(resolution='110m', category='cultural', name='admin_0_countries') reader = shpreader.Reader(shpfilename) countries = reader.records() for country in countries: if country.attributes['SOVEREIGNT'] == "Bulgaria": …

4
パンダは結果を列にグループ化
私はこのようなデータフレームを持っています: x = pd.DataFrame({ 'audio': ['audio1', 'audio1', 'audio2', 'audio2', 'audio3', 'audio3'], 'text': ['text1', 'text2', 'text3', 'text4', 'text5', 'text6'], 'login': ['operator1', 'operator2', 'operator3', 'operator4', 'operator5', 'operator6'] }) 私はそれを次のように集計しようとしています: x1 = x.groupby('audio')['text'].agg( [ ('text1', lambda x : x.iat[0]), ('text2', lambda x : x.iat[1]), ('leven', lambda x: Levenshtein.distance(x.iat[0], x.iat[1])) #some function works with …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.