プログラミング pandas

14

でほとんどの操作pandasオペレータチェーン（で達成することができgroupby、aggregate、apply、など）が、私は、フィルタ行に見つけた唯一の方法は、通常のブラケットのインデックス経由で df_filtered = df[df['column'] == value] df値にフィルターをかける前に変数に割り当てる必要があるため、これは魅力的ではありません。次のようなものはありますか？ df_filtered = df.mask(lambda x: x['column'] == value)

329 python pandas dataframe

17

パンダ-列の階層インデックスをフラット化する方法

（groupby.agg操作からの）軸1（列）に階層インデックスを持つデータフレームがあります。 USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf sum sum sum sum amax amin 0 702730 26451 1993 1 1 1 0 12 13 30.92 24.98 1 702730 26451 1993 1 2 0 0 13 13 32.00 24.98 2 702730 26451 1993 1 3 1 10 2 …

325 python pandas dataframe

23

パンダを使用して1つのデータフレームからテストとトレーニングサンプルを作成するにはどうすればよいですか？

データフレームの形式のかなり大きなデータセットがあり、トレーニングとテストのためにデータフレームを2つのランダムサンプル（80％と20％）に分割する方法を考えていました。ありがとう！

323 python python-2.7 pandas dataframe

7

パンダのread_csv low_memoryおよびdtypeオプション

電話するとき df = pd.read_csv('somefile.csv') 私は得る： /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130：DtypeWarning：列（4、5、7、16）には型が混在しています。インポート時にdtypeオプションを指定するか、low_memory = Falseを設定します。 dtypeオプションがに関連しているのはなぜですかlow_memory、なぜFalseこの問題を解決するのですか？

320 python parsing numpy pandas dataframe

10

辞書を使用してパンダ列の値を再マッピングする

次のような辞書があります。 di = {1: "A", 2: "B"} 次のようなデータフレームの「col1」列にそれを適用したいと思います。 col1 col2 0 w a 1 1 2 2 2 NaN 取得するため： col1 col2 0 w a 1 A 2 2 B NaN これを行うにはどうすればよいですか？何らかの理由で、これに関連する用語をググリングすると、dictsから列を作成する方法とその逆の方法に関するリンクのみが表示されます：-/

318 python dictionary pandas remap

11

パンダを使用してデータフレームを保存する方法

現在CSV、スクリプトを実行するたびにかなり大きなデータフレームをインポートしています。スクリプトが実行されるのを待つためにすべての時間を費やす必要がないように、実行間でそのデータフレームを常に利用できるようにするための良い解決策はありますか？

317 python pandas dataframe

5

パンダは他の列の値に基づいて新しい列を作成します/行ごとに複数の列の関数を適用します

私は、これらの6つの列（に（それがあれば、他のはしごを使用しています）私のカスタム関数を適用したいERI_Hispanic、ERI_AmerInd_AKNatv、ERI_Asian、ERI_Black_Afr.Amer、ERI_HI_PacIsl、ERI_White私のデータフレームの各行の）。私は他の質問とは異なる方法を試しましたが、それでも私の問題に対する正しい答えを見つけることができないようです。これの重要な部分は、人がヒスパニックとして数えられるならば、彼らは他のものとして数えることができないということです。別の民族の列に「1」がある場合でも、2人以上ではなくヒスパニック系としてカウントされます。同様に、すべてのERI列の合計が1より大きい場合、それらは2つ以上の人種としてカウントされ、一意の民族として数えることはできません（ヒスパニックを除く）。うまくいけば、これは理にかなっています。どんな助けでも大歓迎です。これは、各行でforループを実行するのとほとんど同じです。各レコードが基準を満たしている場合は、1つのリストに追加され、元のリストから削除されます。以下のデータフレームから、SQLの次の仕様に基づいて新しい列を計算する必要があります。 =========================基準======================== ======= IF [ERI_Hispanic] = 1 THEN RETURN “Hispanic” ELSE IF SUM([ERI_AmerInd_AKNatv] + [ERI_Asian] + [ERI_Black_Afr.Amer] + [ERI_HI_PacIsl] + [ERI_White]) > 1 THEN RETURN “Two or More” ELSE IF [ERI_AmerInd_AKNatv] = 1 THEN RETURN “A/I AK Native” ELSE IF [ERI_Asian] = 1 THEN RETURN “Asian” ELSE …

316 python pandas numpy apply

8

シリーズ/データフレーム列のパンダ条件付き作成

以下の行に沿ってデータフレームがあります： Type Set 1 A Z 2 B Z 3 B X 4 C Y データフレームと同じ長さの別の列をデータフレームに追加（またはシリーズを生成）したい（=レコード/行の等しい数）。。これを行う最良の方法は何ですか？

314 python pandas numpy dataframe

14

データフレーム列で値が発生する頻度を数える

データセットがあります |category| cat a cat b cat a （一意の値と頻度を示す）などを返すことができるようにしたい category | freq | cat a 2 cat b 1

313 python pandas

6

KeyErrorを与えるlen（string）を含む条件式に基づいて、pandas DataFrameから行を削除します

私はpandas DataFrameを持っていますが、特定の列の文字列の長さが2より大きい行を削除します。私はこれを行うことができると期待しています（この回答に従って）： df[(len(df['column name']) < 2)] しかし、私はただエラーを受け取ります： KeyError: u'no item named False' 何が悪いのですか？（注：をdf.dropna()含むNaN行を削除するために使用できることは知っていますが、条件式に基づいて行を削除する方法はわかりませんでした。）

303 python pandas

7

パンダ-指定された列の最初の行の値を取得します

これはとんでもないほど簡単な質問のように思われます...しかし、期待していた簡単な答えはわかりません。それでは、パンダの特定の列のn行目の値を取得するにはどうすればよいですか？（私は最初の行に特に興味がありますが、より一般的な実践にも興味があります）。たとえば、Btimeの1.2の値を変数として取得するとします。これを行う正しい方法は何ですか？ df_test = ATime X Y Z Btime C D E 0 1.2 2 15 2 1.2 12 25 12 1 1.4 3 12 1 1.3 13 22 11 2 1.5 1 10 6 1.4 11 20 16 3 1.6 2 9 10 1.7 12 29 12 …

300 python pandas indexing head

15

Python dictをデータフレームに変換する

次のようなPython辞書があります。 {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': …

299 python pandas dataframe

5

pandas DataFrameが空かどうかを確認するにはどうすればよいですか？

パンダDataFrameが空かどうかを確認するにはどうすればよいですか？私の場合、ターミナルDataFrameが空の場合にターミナルにメッセージを出力したいと思います。

296 python pandas dataframe

12

datetime、Timestamp、datetime64間の変換

numpy.datetime64オブジェクトをdatetime.datetime（またはTimestamp）に変換するにはどうすればよいですか？次のコードでは、datetime、timestamp、およびdatetime64オブジェクトを作成しています。 import datetime import numpy as np import pandas as pd dt = datetime.datetime(2012, 5, 1) # A strange way to extract a Timestamp object, there's surely a better way? ts = pd.DatetimeIndex([dt])[0] dt64 = np.datetime64(dt) In [7]: dt Out[7]: datetime.datetime(2012, 5, 1, 0, 0) In [8]: ts Out[8]: …

290 python datetime numpy pandas

8

パンダ数（個別）相当

複数のデータベース（oracle、mssqlなど）があり、コマンドのシーケンスを同等のSQLにすることができないため、pandasをdbの代替として使用しています。いくつかの列を持つデータフレームに読み込まれたテーブルがあります。 YEARMONTH, CLIENTCODE, SIZE, .... etc etc SQLでは、1年あたりのさまざまなクライアントの数を数えるには、次のようにします。 SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH; そして結果は 201301 5000 201302 13245 パンダでどうすればいいですか？

289 python pandas count group-by distinct

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」