タグ付けされた質問 「group-by」

GROUP BYは、SQLリレーショナルデータベース標準のコマンドで、共通のフィールド値を共有する行のグループを単一の行に折りたたみます。SUM()やAVG()など、グループ内の他のフィールドで集計関数を実行して、関連するデータを単一の値に照合できます。


2
パンダグループの値の範囲
パンダにgroupby値の増分の範囲で呼び出す簡単な方法はありますか?たとえば、以下の例では、列の最初の2つのグループが「0〜0.155、0.155〜0.31 ...」の範囲に分割されるように、列Bを0.155インクリメントしてビン化およびグループ化できBます。 import numpy as np import pandas as pd df=pd.DataFrame({'A':np.random.random(20),'B':np.random.random(20)}) A B 0 0.383493 0.250785 1 0.572949 0.139555 2 0.652391 0.401983 3 0.214145 0.696935 4 0.848551 0.516692 あるいは、最初にそれらの増分によってデータを新しい列に分類し、その後groupby、列に適用できる可能性のある関連する統計を決定するために使用することができますAか?

2
Python Pandas:group by group by and average?
私はこのようなデータフレームを持っています: cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6 クラスタごと、組織ごとの平均時間を計算したいと思います。 期待される結果: cluster mean(time) 1 15 ((8+6)/2+23)/2 2 54 (74+34)/2 3 6 パンダでそれを行う方法がわかりません、誰か助けてくれますか?
89 python  pandas  group-by  mean 

3
パンダはグループごとに合計されますが、特定の列は除外されます
Pandasデータフレームでgroupbyを実行し、そのgroupbyから一部の列を除外する最良の方法は何ですか?たとえば、次のデータフレームがあります。 Code Country Item_Code Item Ele_Code Unit Y1961 Y1962 Y1963 2 Afghanistan 15 Wheat 5312 Ha 10 20 30 2 Afghanistan 25 Maize 5312 Ha 10 20 30 4 Angola 15 Wheat 7312 Ha 30 40 50 4 Angola 25 Maize 7312 Ha 30 40 50 国とItem_Codeの列でグループ化し、Y1961、Y1962、Y1963の列に該当する行の合計のみを計算したいと思います。結果のデータフレームは次のようになります。 Code Country Item_Code …


5
group by句では列の順序は重要ですか?
カーディナリティが非常に高い列とカーディナリティが非常に低い列(一意の値の数)の2つの列がある場合、どの順序でグループ化するかは重要ですか? 次に例を示します。 select dimensionName, dimensionCategory, sum(someFact) from SomeFact f join SomeDim d on f.dimensionKey = d.dimensionKey group by d.dimensionName, -- large number of unique values d.dimensionCategory -- small number of unique values それが重要な状況はありますか?

2
pandas groupby()。sum()の出力から新しい列を作成するにはどうすればよいですか?
groupby計算から新しい列を作成しようとしています。以下のコードでは、各日付の正しい計算値を取得しています(以下のグループを参照)が、それを使用して新しい列(df['Data4'])を作成しようとすると、NaNが取得されます。そのData3ため、すべての日付の合計を使用してデータフレームに新しい列を作成し、それを各日付行に適用しようとしています。たとえば、2015-05-08は2行にあり(合計は50 + 5 = 55)、この新しい列では、両方の行に55を入れたいと思います。 import pandas as pd import numpy as np from pandas import DataFrame df = pd.DataFrame({ 'Date' : ['2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05', '2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05'], 'Sym' : ['aapl', 'aapl', 'aapl', 'aapl', 'aaww', 'aaww', 'aaww', 'aaww'], 'Data2': [11, 8, 10, 15, 110, 60, 100, 40], 'Data3': …


5
Python Pandas groupby操作の結果を親データフレームの列に割り当てる方法は?
IPythonには次のデータフレームがあり、各行は単一の株です。 In [261]: bdata Out[261]: <class 'pandas.core.frame.DataFrame'> Int64Index: 21210 entries, 0 to 21209 Data columns: BloombergTicker 21206 non-null values Company 21210 non-null values Country 21210 non-null values MarketCap 21210 non-null values PriceReturn 21210 non-null values SEDOL 21210 non-null values yearmonth 21210 non-null values dtypes: float64(2), int64(1), object(4) 「yearmonth」列の各日付ごとに、すべてのキャップ加重平均リターンを計算するgroupby操作を適用したいと思います。 これは期待どおりに機能します。 In …

1
groupbyとdistinctを使用した場合のパフォーマンスの大きな違い
HSQLDB500000エントリを含むテーブルを使用してサーバーでいくつかのテストを実行しています。テーブルにはインデックスがありません。5000の異なるビジネスキーがあります。それらのリストが必要です。当然、私はDISTINCTクエリから始めました: SELECT DISTINCT business_key FROM memory WHERE concept <> 'case' or attrib <> 'status' or value <> 'closed' 約90秒かかります!!! それから私は使ってみましたGROUP BY: SELECT business_key FROM memory WHERE concept <> 'case' or attrib <> 'status' or value <> 'closed' GROUP BY business_key そしてそれは1秒かかります!!! 私が実行した違いを理解しようとしていEXLAIN PLAN FORますが、両方のクエリで同じ情報が得られるようです。 EXLAIN PLAN FOR DISTINCT ... isAggregated=[false] …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.