タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

14
パンダ:演算子チェーンを使用してDataFrameの行をフィルター処理する
でほとんどの操作pandasオペレータチェーン(で達成することができgroupby、aggregate、apply、など)が、私は、フィルタ行に見つけた唯一の方法は、通常のブラケットのインデックス経由で df_filtered = df[df['column'] == value] df値にフィルターをかける前に変数に割り当てる必要があるため、これは魅力的ではありません。次のようなものはありますか? df_filtered = df.mask(lambda x: x['column'] == value)
329 python  pandas  dataframe 



7
パンダのread_csv low_memoryおよびdtypeオプション
電話するとき df = pd.read_csv('somefile.csv') 私は得る: /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130:DtypeWarning:列(4、5、7、16)には型が混在しています。インポート時にdtypeオプションを指定するか、low_memory = Falseを設定します。 dtypeオプションがに関連しているのはなぜですかlow_memory、なぜFalseこの問題を解決するのですか?

10
辞書を使用してパンダ列の値を再マッピングする
次のような辞書があります。 di = {1: "A", 2: "B"} 次のようなデータフレームの「col1」列にそれを適用したいと思います。 col1 col2 0 w a 1 1 2 2 2 NaN 取得するため: col1 col2 0 w a 1 A 2 2 B NaN これを行うにはどうすればよいですか?何らかの理由で、これに関連する用語をググリングすると、dictsから列を作成する方法とその逆の方法に関するリンクのみが表示されます:-/

11
パンダを使用してデータフレームを保存する方法
現在CSV、スクリプトを実行するたびにかなり大きなデータフレームをインポートしています。スクリプトが実行されるのを待つためにすべての時間を費やす必要がないように、実行間でそのデータフレームを常に利用できるようにするための良い解決策はありますか?
317 python  pandas  dataframe 

5
パンダは他の列の値に基づいて新しい列を作成します/行ごとに複数の列の関数を適用します
私は、これらの6つの列(に(それがあれば、他のはしごを使用しています)私のカスタム関数を適用したいERI_Hispanic、ERI_AmerInd_AKNatv、ERI_Asian、ERI_Black_Afr.Amer、ERI_HI_PacIsl、ERI_White私のデータフレームの各行の)。 私は他の質問とは異なる方法を試しましたが、それでも私の問題に対する正しい答えを見つけることができないようです。これの重要な部分は、人がヒスパニックとして数えられるならば、彼らは他のものとして数えることができないということです。別の民族の列に「1」がある場合でも、2人以上ではなくヒスパニック系としてカウントされます。同様に、すべてのERI列の合計が1より大きい場合、それらは2つ以上の人種としてカウントされ、一意の民族として数えることはできません(ヒスパニックを除く)。うまくいけば、これは理にかなっています。どんな助けでも大歓迎です。 これは、各行でforループを実行するのとほとんど同じです。各レコードが基準を満たしている場合は、1つのリストに追加され、元のリストから削除されます。 以下のデータフレームから、SQLの次の仕様に基づいて新しい列を計算する必要があります。 =========================基準======================== ======= IF [ERI_Hispanic] = 1 THEN RETURN “Hispanic” ELSE IF SUM([ERI_AmerInd_AKNatv] + [ERI_Asian] + [ERI_Black_Afr.Amer] + [ERI_HI_PacIsl] + [ERI_White]) > 1 THEN RETURN “Two or More” ELSE IF [ERI_AmerInd_AKNatv] = 1 THEN RETURN “A/I AK Native” ELSE IF [ERI_Asian] = 1 THEN RETURN “Asian” ELSE …
316 python  pandas  numpy  apply 



6
KeyErrorを与えるlen(string)を含む条件式に基づいて、pandas DataFrameから行を削除します
私はpandas DataFrameを持っていますが、特定の列の文字列の長さが2より大きい行を削除します。 私はこれを行うことができると期待しています(この回答に従って): df[(len(df['column name']) < 2)] しかし、私はただエラーを受け取ります: KeyError: u'no item named False' 何が悪いのですか? (注:をdf.dropna()含むNaN行を削除するために使用できることは知っていますが、条件式に基づいて行を削除する方法はわかりませんでした。)
303 python  pandas 

7
パンダ-指定された列の最初の行の値を取得します
これはとんでもないほど簡単な質問のように思われます...しかし、期待していた簡単な答えはわかりません。 それでは、パンダの特定の列のn行目の値を取得するにはどうすればよいですか?(私は最初の行に特に興味がありますが、より一般的な実践にも興味があります)。 たとえば、Btimeの1.2の値を変数として取得するとします。 これを行う正しい方法は何ですか? df_test = ATime X Y Z Btime C D E 0 1.2 2 15 2 1.2 12 25 12 1 1.4 3 12 1 1.3 13 22 11 2 1.5 1 10 6 1.4 11 20 16 3 1.6 2 9 10 1.7 12 29 12 …
300 python  pandas  indexing  head 

15
Python dictをデータフレームに変換する
次のようなPython辞書があります。 {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': …
299 python  pandas  dataframe 


12
datetime、Timestamp、datetime64間の変換
numpy.datetime64オブジェクトをdatetime.datetime(またはTimestamp)に変換するにはどうすればよいですか? 次のコードでは、datetime、timestamp、およびdatetime64オブジェクトを作成しています。 import datetime import numpy as np import pandas as pd dt = datetime.datetime(2012, 5, 1) # A strange way to extract a Timestamp object, there's surely a better way? ts = pd.DatetimeIndex([dt])[0] dt64 = np.datetime64(dt) In [7]: dt Out[7]: datetime.datetime(2012, 5, 1, 0, 0) In [8]: ts Out[8]: …
290 python  datetime  numpy  pandas 

8
パンダ数(個別)相当
複数のデータベース(oracle、mssqlなど)があり、コマンドのシーケンスを同等のSQLにすることができないため、pandasをdbの代替として使用しています。 いくつかの列を持つデータフレームに読み込まれたテーブルがあります。 YEARMONTH, CLIENTCODE, SIZE, .... etc etc SQLでは、1年あたりのさまざまなクライアントの数を数えるには、次のようにします。 SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH; そして結果は 201301 5000 201302 13245 パンダでどうすればいいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.