ユーザーアクティビティのログがあり、合計期間と1日あたりのユニークユーザー数のレポートを生成したいとします。
import numpy as np
import pandas as pd
df = pd.DataFrame({'date': ['2013-04-01','2013-04-01','2013-04-01','2013-04-02', '2013-04-02'],
'user_id': ['0001', '0001', '0002', '0002', '0002'],
'duration': [30, 15, 20, 15, 30]})
期間の集計は非常に簡単です。
group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg
duration
date
2013-04-01 65
2013-04-02 45
私がやりたいのは、期間とカウントの個別を同時に合計することですが、count_distinctに相当するものが見つからないようです。
agg = group.aggregate({ 'duration': np.sum, 'user_id': count_distinct})
これは機能しますが、確かにもっと良い方法がありますね。
group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg['uv'] = df.groupby('date').user_id.nunique()
agg
duration uv
date
2013-04-01 65 2
2013-04-02 45 1
Seriesオブジェクトの個別のアイテムの数を集計関数に返す関数を提供する必要があると思っていますが、さまざまなライブラリを自由に利用することはあまりありません。また、groupbyオブジェクトはすでにこの情報を知っているようですので、私は単に努力を複製しているのではないでしょうか?