Pythonを使用した分析の初心者なので、穏やかにしてください:-)この質問に対する答えが見つかりませんでした。別の形式ですでに他の場所で回答されている場合は、お詫びします。
小売店のトランザクションデータのデータセットがあります。変数と説明は次のとおりです。
- section:ストアのセクション、str。
- prod_name:製品の名前、str;
- 領収書:請求書の番号、int;
- レジ係、レジ係の番号、int;
- コスト:アイテムのコスト、フロート。
- MM / DD / YY形式の日付、str;
- 時間、形式HH:MM:SS、str;
領収書は、1回のトランザクションで購入されたすべての製品に対して同じ値を持つため、1回のトランザクションで行われた購入の平均数を決定するために使用できます。
これについて最善の方法は何ですか?基本的groupby()
には、ヒストグラムを作成できるように、独自の同一の出現ごとに受信変数をグループ化するために使用したいと思います。
Pandas DataFrameでデータを操作する。
編集:
以下は、ヘッダー付きのサンプルデータです(prod_nameは実際には16進数です)。
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
このサンプルセットから、領収書102857の2つのオカレンス(1つのトランザクションで2つのアイテムを購入したため)と、領収書102856およびレシート102858のそれぞれ1つのオカレンスを示す領収書のヒストグラムが予想されます。注:データセットは巨大ではありません。 100万行。