プログラミング pandas

4

次のデータフレームを検討してください： A B C D 0 foo one 0.162003 0.087469 1 bar one -1.156319 -1.526272 2 foo two 0.833892 -1.666304 3 bar three -2.026673 -0.322057 4 foo two 0.411452 -0.954371 5 bar two 0.765878 -0.095968 6 foo one -0.654890 0.678091 7 foo three -1.789842 -1.130922 次のコマンドが機能します。 > df.groupby('A').apply(lambda x: (x['C'] …

174 python pandas

5

パンダloc対iloc対ix対at対iat？

最近、私の安全な場所（R）からPythonに分岐し始め、でのセルのローカライズ/選択に少し混乱していPandasます。ドキュメントを読みましたが、さまざまなローカリゼーション/選択オプションの実際的な影響を理解するのに苦労しています。私が今まで使用しなければならない理由がある.locか、.iloc最も一般的なオプションの上には.ix？私はそれを理解し.loc、iloc、at、およびiatいくつかの保証正確提供することができ.ix提供することはできませんが、しかし、どこにも読んで.ixボード全体で最速の解決策になる傾向があります。以外の何かを利用することの背後にある実際のベストプラクティスの推論について説明してください.ix。

171 python pandas performance indexing lookup

10

Seabornプロットをファイルに保存する方法

私は次のコード（test_seaborn.py）を試しました： import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt matplotlib.style.use('ggplot') import seaborn as sns sns.set() df = sns.load_dataset('iris') sns_plot = sns.pairplot(df, hue='species', size=2.5) fig = sns_plot.get_figure() fig.savefig("output.png") #sns.plt.show() しかし、私はこのエラーを受け取ります： Traceback (most recent call last): File "test_searborn.py", line 11, in <module> fig = sns_plot.get_figure() AttributeError: 'PairGrid' object has no attribute 'get_figure' 私は決勝戦output.pngが存在し、次のようになることを期待しています： …

171 python pandas matplotlib seaborn

8

インデックスなしでパンダデータフレームを印刷する方法

データフレーム全体を印刷したいが、インデックスを印刷したくないさらに、1つの列は日時タイプです。日付ではなく、時間を出力したいだけです。データフレームは次のようになります。 User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 印刷したい User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

170 python datetime pandas dataframe

7

正規表現でパンダの行をフィルタリングする方法

列の1つで正規表現を使用してデータフレームをきれいにフィルタリングしたいと思います。不自然な例： In [210]: foo = pd.DataFrame({'a' : [1,2,3,4], 'b' : ['hi', 'foo', 'fat', 'cat']}) In [211]: foo Out[211]: a b 0 1 hi 1 2 foo 2 3 fat 3 4 cat 行をフィルタリングしfて、正規表現を使用して始まる行に絞り込みます。最初に行く： In [213]: foo.b.str.match('f.*') Out[213]: 0 [] 1 () 2 () 3 [] それはそれほど有用ではありません。しかし、これは私のブールインデックスを取得します： In [226]: foo.b.str.match('(f.*)').str.len() …

169 python regex pandas

5

パンダシリーズと単一列のDataFrameの違いは何ですか？

パンダはなぜSeriesと単一列を区別するのDataFrameですか？言い換えれば、Seriesクラスが存在する理由は何ですか？私は主に日時インデックス付きの時系列を使用していますが、これはコンテキストの設定に役立ちます。

168 python pandas

3

パンダ：複数の列の2つのデータフレームをマージ（結合）

2つの列を使用して2つのパンダデータフレームを結合しようとしています。 new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]') しかし、次のエラーが発生しました： pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)() pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4028)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13166)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13120)() KeyError: '[B_1, c2]' これを行うための正しい方法は何ですか？ありがとう！

168 python python-3.x pandas join

7

Pandas DataFrameを辞書に変換する

4列のデータフレームがあります。このDataFrameをPython辞書に変換したいと思います。最初の列keysの要素を同じ行の他の列の要素にする必要がありますvalues。データフレーム： ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 出力は次のようになります。辞書： {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

168 python pandas dictionary dataframe

7

同じワークブックの複数のワークシートでPandasを使用してpd.read_excel（）を実行する

python pandasを使用して処理している大きなスプレッドシートファイル（.xlsx）があります。その大きなファイルの2つのタブのデータが必要になることがあります。タブの1つには大量のデータがあり、もう1つは数個の正方形のセルです。私が使用している場合pd.read_excelを（）上の任意のワークシートファイル全体がロードされるように、それは（私が興味のワークシートだけではなく）私には見えます。したがって、メソッドを2回（シートごとに1回）使用すると、ワークブック全体が2回読み込まれることになります（指定したシートのみを使用している場合でも）。私はそれを間違って使用していますか、それともこのように制限されていますか？ありがとうございました！

168 python excel pandas dataframe

6

Pandas DataFrame Groupby 2列でカウントを取得

次の形式のパンダデータフレームがあります。 df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df： col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 x/u 2 …

166 python pandas dataframe

5

グループ内で並べ替えるパンダ

データフレームを2つの列でグループ化し、グループ内の集計結果を並べ替えます。 In [167]: df Out[167]: count job source 0 2 sales A 1 4 sales B 2 6 sales C 3 3 sales D 4 7 sales E 5 5 market A 6 3 market B 7 2 market C 8 4 market D 9 1 market E In [168]: …

166 python sorting pandas group-by

4

ヘッダー行をpandas DataFrameに追加する方法

CSVファイルをに読み込んでいますpandas。このcsvファイルは4つの列といくつかの行で構成されていますが、追加したいヘッダー行がありません。私は以下を試しています： Cov = pd.read_csv("path/to/file.txt", sep='\t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"]) Frame.to_csv("path/to/file.txt", sep='\t') しかし、コードを適用すると、次のエラーが発生します。 ValueError: Shape of passed values is (1, 1), indices imply (4, 1) エラーは正確にはどういう意味ですか？そして、ヘッダー行をcsvファイル/パンダdfに追加するPythonのきれいな方法は何でしょうか？

165 python csv pandas header

5

複数の引数を持つ関数を適用して新しいパンダ列を作成する

pandas既存の2つの列に関数を適用して、データフレームに新しい列を作成します。この回答に従って、引数として1つの列のみが必要な場合に新しい列を作成することができました。 import pandas as pd df = pd.DataFrame({"A": [10,20,30], "B": [20, 30, 10]}) def fx(x): return x * x print(df) df['newcolumn'] = df.A.apply(fx) print(df) ただし、関数に複数の引数が必要な場合に同じことを行う方法はわかりません。たとえば、列Aと列Bを以下の関数に渡して新しい列を作成するにはどうすればよいですか？ def fxy(x, y): return x * y

165 python pandas

4

辞書のリストへのPandas DataFrame

次のDataFrameがあります。顧客item1 item2 item3 アップルミルクトマト1個ウォーターオレンジポテト2個 3ジュースマンゴーチップ行ごとの辞書のリストに変換したい rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'}, {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'}, {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]

165 python list dictionary pandas dataframe

8

複数のリストをデータフレームに取り込む

複数のリストを取得して、それらをpythonデータフレームの異なる列として配置するにはどうすればよいですか？私はこの解決策を試しましたが、いくつかの問題がありました。試行1： 3つのリストを用意し、それらをまとめて圧縮して使用する res = zip(lst1,lst2,lst3) 1列だけを生成します試み2： percentile_list = pd.DataFrame({'lst1Tite' : [lst1], 'lst2Tite' : [lst2], 'lst3Tite' : [lst3] }, columns=['lst1Tite','lst1Tite', 'lst1Tite']) 1行3列（上記の方法）または転置した場合、3行1列になります 100行（各独立したリストの長さ）x 3列（3つのリスト）のパンダデータフレームを取得するにはどうすればよいですか？

164 python numpy pandas

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」