タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

4
グループオブジェクトの適用と変換
次のデータフレームを検討してください: A B C D 0 foo one 0.162003 0.087469 1 bar one -1.156319 -1.526272 2 foo two 0.833892 -1.666304 3 bar three -2.026673 -0.322057 4 foo two 0.411452 -0.954371 5 bar two 0.765878 -0.095968 6 foo one -0.654890 0.678091 7 foo three -1.789842 -1.130922 次のコマンドが機能します。 > df.groupby('A').apply(lambda x: (x['C'] …
174 python  pandas 

5
パンダloc対iloc対ix対at対iat?
最近、私の安全な場所(R)からPythonに分岐し始め、でのセルのローカライズ/選択に少し混乱していPandasます。ドキュメントを読みましたが、さまざまなローカリゼーション/選択オプションの実際的な影響を理解するのに苦労しています。 私が今まで使用しなければならない理由がある.locか、.iloc最も一般的なオプションの上には.ix? 私はそれを理解し.loc、iloc、at、およびiatいくつかの保証正確提供することができ.ix提供することはできませんが、しかし、どこにも読んで.ixボード全体で最速の解決策になる傾向があります。 以外の何かを利用することの背後にある実際のベストプラクティスの推論について説明してください.ix。

10
Seabornプロットをファイルに保存する方法
私は次のコード(test_seaborn.py)を試しました: import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt matplotlib.style.use('ggplot') import seaborn as sns sns.set() df = sns.load_dataset('iris') sns_plot = sns.pairplot(df, hue='species', size=2.5) fig = sns_plot.get_figure() fig.savefig("output.png") #sns.plt.show() しかし、私はこのエラーを受け取ります: Traceback (most recent call last): File "test_searborn.py", line 11, in <module> fig = sns_plot.get_figure() AttributeError: 'PairGrid' object has no attribute 'get_figure' 私は決勝戦output.pngが存在し、次のようになることを期待しています: …

8
インデックスなしでパンダデータフレームを印刷する方法
データフレーム全体を印刷したいが、インデックスを印刷したくない さらに、1つの列は日時タイプです。日付ではなく、時間を出力したいだけです。 データフレームは次のようになります。 User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 印刷したい User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

7
正規表現でパンダの行をフィルタリングする方法
列の1つで正規表現を使用してデータフレームをきれいにフィルタリングしたいと思います。 不自然な例: In [210]: foo = pd.DataFrame({'a' : [1,2,3,4], 'b' : ['hi', 'foo', 'fat', 'cat']}) In [211]: foo Out[211]: a b 0 1 hi 1 2 foo 2 3 fat 3 4 cat 行をフィルタリングしfて、正規表現を使用して始まる行に絞り込みます。最初に行く: In [213]: foo.b.str.match('f.*') Out[213]: 0 [] 1 () 2 () 3 [] それはそれほど有用ではありません。しかし、これは私のブールインデックスを取得します: In [226]: foo.b.str.match('(f.*)').str.len() …
169 python  regex  pandas 


3
パンダ:複数の列の2つのデータフレームをマージ(結合)
2つの列を使用して2つのパンダデータフレームを結合しようとしています。 new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]') しかし、次のエラーが発生しました: pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)() pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4028)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13166)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13120)() KeyError: '[B_1, c2]' これを行うための正しい方法は何ですか?ありがとう!

7
Pandas DataFrameを辞書に変換する
4列のデータフレームがあります。このDataFrameをPython辞書に変換したいと思います。最初の列keysの要素を同じ行の他の列の要素にする必要がありますvalues。 データフレーム: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 出力は次のようになります。 辞書: {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

7
同じワークブックの複数のワークシートでPandasを使用してpd.read_excel()を実行する
python pandasを使用して処理している大きなスプレッドシートファイル(.xlsx)があります。その大きなファイルの2つのタブのデータが必要になることがあります。タブの1つには大量のデータがあり、もう1つは数個の正方形のセルです。 私が使用している場合pd.read_excelを()上の任意のワークシートファイル全体がロードされるように、それは(私が興味のワークシートだけではなく)私には見えます。したがって、メソッドを2回(シートごとに1回)使用すると、ワークブック全体が2回読み込まれることになります(指定したシートのみを使用している場合でも)。 私はそれを間違って使用していますか、それともこのように制限されていますか? ありがとうございました!

6
Pandas DataFrame Groupby 2列でカウントを取得
次の形式のパンダデータフレームがあります。 df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df: col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 x/u 2 …
166 python  pandas  dataframe 

5
グループ内で並べ替えるパンダ
データフレームを2つの列でグループ化し、グループ内の集計結果を並べ替えます。 In [167]: df Out[167]: count job source 0 2 sales A 1 4 sales B 2 6 sales C 3 3 sales D 4 7 sales E 5 5 market A 6 3 market B 7 2 market C 8 4 market D 9 1 market E In [168]: …

4
ヘッダー行をpandas DataFrameに追加する方法
CSVファイルをに読み込んでいますpandas。このcsvファイルは4つの列といくつかの行で構成されていますが、追加したいヘッダー行がありません。私は以下を試しています: Cov = pd.read_csv("path/to/file.txt", sep='\t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"]) Frame.to_csv("path/to/file.txt", sep='\t') しかし、コードを適用すると、次のエラーが発生します。 ValueError: Shape of passed values is (1, 1), indices imply (4, 1) エラーは正確にはどういう意味ですか?そして、ヘッダー行をcsvファイル/パンダdfに追加するPythonのきれいな方法は何でしょうか?
165 python  csv  pandas  header 

5
複数の引数を持つ関数を適用して新しいパンダ列を作成する
pandas既存の2つの列に関数を適用して、データフレームに新しい列を作成します。この回答に従って、引数として1つの列のみが必要な場合に新しい列を作成することができました。 import pandas as pd df = pd.DataFrame({"A": [10,20,30], "B": [20, 30, 10]}) def fx(x): return x * x print(df) df['newcolumn'] = df.A.apply(fx) print(df) ただし、関数に複数の引数が必要な場合に同じことを行う方法はわかりません。たとえば、列Aと列Bを以下の関数に渡して新しい列を作成するにはどうすればよいですか? def fxy(x, y): return x * y
165 python  pandas 

4
辞書のリストへのPandas DataFrame
次のDataFrameがあります。 顧客item1 item2 item3 アップルミルクトマト1個 ウォーターオレンジポテト2個 3ジュースマンゴーチップ 行ごとの辞書のリストに変換したい rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'}, {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'}, {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]

8
複数のリストをデータフレームに取り込む
複数のリストを取得して、それらをpythonデータフレームの異なる列として配置するにはどうすればよいですか?私はこの解決策を試しましたが、いくつかの問題がありました。 試行1: 3つのリストを用意し、それらをまとめて圧縮して使用する res = zip(lst1,lst2,lst3) 1列だけを生成します 試み2: percentile_list = pd.DataFrame({'lst1Tite' : [lst1], 'lst2Tite' : [lst2], 'lst3Tite' : [lst3] }, columns=['lst1Tite','lst1Tite', 'lst1Tite']) 1行3列(上記の方法)または転置した場合、3行1列になります 100行(各独立したリストの長さ)x 3列(3つのリスト)のパンダデータフレームを取得するにはどうすればよいですか?
164 python  numpy  pandas 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.