タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

11
パンダのデータフレームから行のリストをドロップする方法は?
私はデータフレームdfを持っています: >>> df sales discount net_sales cogs STK_ID RPT_Date 600141 20060331 2.709 NaN 2.709 2.245 20060630 6.590 NaN 6.590 5.291 20060930 10.103 NaN 10.103 7.981 20061231 15.915 NaN 15.915 12.686 20070331 3.196 NaN 3.196 2.710 20070630 7.907 NaN 7.907 6.459 次に、リストに示されている特定のシーケンス番号を持つ行を削除したいと思います[1,2,4],。 sales discount net_sales cogs STK_ID RPT_Date 600141 20060331 2.709 …
258 python  pandas 


9
「ValueError:重複する軸からインデックスを再作成できない」とはどういう意味ですか?
私はAを取得していますValueError: cannot reindex from a duplicate axis、私は一定の値にインデックスを設定しようとしていたとき。簡単な例で再現してみましたが、できませんでした。 これがipdbトレース内の私のセッションです。文字列インデックス、整数列、浮動小数点値を持つデータフレームがあります。しかしsum、すべての列の合計のインデックスを作成しようとすると、ValueError: cannot reindex from a duplicate axisエラーが発生します。同じ特性を持つ小さなDataFrameを作成しましたが、問題を再現できませんでした。何が欠けているのでしょうか? 私は本当に理解していないValueError: cannot reindex from a duplicate axis、このエラーメッセージはどういう意味、手段は?多分これは私が問題を診断するのを助けるでしょう、そしてこれは私の質問の最も答えやすい部分です。 ipdb> type(affinity_matrix) <class 'pandas.core.frame.DataFrame'> ipdb> affinity_matrix.shape (333, 10) ipdb> affinity_matrix.columns Int64Index([9315684, 9315597, 9316591, 9320520, 9321163, 9320615, 9321187, 9319487, 9319467, 9320484], dtype='int64') ipdb> affinity_matrix.index Index([u'001', u'002', u'003', u'004', u'005', u'008', …
254 python  pandas 

9
パンダインデックス列のタイトルまたは名前
Python pandasでインデックス列名を取得するにはどうすればよいですか?次にデータフレームの例を示します。 Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 私がやろうとしているのは、データフレームインデックスのタイトルを取得/設定することです。これが私が試したものです: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 誰でもこれを行う方法を知っていますか?


6
インデックスが重複している行を削除する(Pandas DataFrameおよびTimeSeries)
Webから自動気象データを読んでいます。観測は5分ごとに行われ、各測候所の月次ファイルにコンパイルされます。ファイルの解析が完了すると、DataFrameは次のようになります。 Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 …
251 python  pandas 

7
DataFrameをiPython Notebookのテーブルとして表示する
iPython Notebookを使用しています。私がこれをするとき: df セルが付いた美しいテーブルが手に入ります。ただし、これを行うと: df1 df2 最初の美しいテーブルは印刷されません。私がこれを試した場合: print df1 print df2 列をあふれ、出力を非常に高くする別の形式でテーブルを出力します。 両方のデータセットの美しいテーブルを強制的に出力する方法はありますか?

11
groupbyを使用してグループの最大数を持つ行を取得します。
列でcountグループ化した後、列の最大値を持つパンダデータフレーム内のすべての行を見つけるにはどうすればよい['Sp','Mt']ですか? 例1:次のdataFrame ['Sp','Mt']。 Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 3 MM2 S3 mk **8** 4 MM2 S4 bg **10** 5 MM2 S4 dgd 1 6 MM4 S2 rd 2 7 MM4 S2 cb 2 8 MM4 S2 …


5
Pandas列をDateTimeに変換
文字列形式としてインポートされたpandas DataFrameに1つのフィールドがあります。日時変数でなければなりません。それを日時列に変換し、日付に基づいてフィルタリングするにはどうすればよいですか。 例: データフレーム名:raw_data 列名:Mycol 列の値の形式:'05SEP2014:00:00:00.000'
241 python  datetime  pandas 

6
複数の列を参照する私のパンダの「適用」機能が機能しないのはなぜですか?[閉まっている]
閉まっている。この質問は再現性がないか、タイプミスが原因です。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 昨年休業。 この質問を改善する 次のデータフレームで複数の列を使用すると、パンダの適用機能に問題があります df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) そして次の機能 def my_test(a, b): return a % b 私がこの関数を適用しようとすると: df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) エラーメッセージが表示されます。 NameError: ("global name 'a' is not defined", u'occurred at index 0') このメッセージを理解できません。名前を正しく定義しました。 …



4
pandas.DataFrameから複雑な基準で選択する
たとえば、私は単純なDFを持っています: import pandas as pd from random import randint df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) Pandasのメソッドとイディオムを使用して、「B」の対応する値が50を超える「A」と「C」-900以外の値を選択できますか?
235 python  pandas 

3
列を明示的にリストせずに、pandas DataFrameから1つ以上のnullを含む行を選択する方法は?
30万行、40列までのデータフレームがあります。行にnull値が含まれているかどうかを確認し、これらの「null」行を別のデータフレームに配置して、簡単に探せるようにしたいと考えています。 マスクを明示的に作成できます: mask = False for col in df.columns: mask = mask | df[col].isnull() dfnulls = df[mask] または私は次のようなことをすることができます: df.ix[df.index[(df.T == np.nan).sum() > 1]] それを行うよりエレガントな方法はありますか?
234 python  pandas  null  nan 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.