プログラミング pandas

4

Stack OverflowでPandasメソッドの使用に関する質問に投稿された多くの回答を見てきましたapply。また、「apply遅く、避けた方がいい」とのコメントをユーザーから見たことがあります。パフォーマンスapplyが遅いという説明のある記事をたくさん読んだことがあります。また、ドキュメントでapplyUDFを渡すための単純な便利な関数についての免責事項も確認しました（現在、それを見つけることができないようです）。したがって、一般的なコンセンサスは、apply可能であれば回避する必要があるということです。ただし、これにより次の質問が生じます。 applyひどい場合は、なぜAPIにあるのですか？いつ、どのようにしてコードをapplyフリーにする必要がありますか？どんな状況で、これまで存在しapplyている良い（他の可能な解決策よりも良い）は？

110 python pandas performance apply

1

パンダのread_xml（）メソッドのテスト戦略

現在、pandas I / Oツールはread_xml()メソッドと対応するものを維持していませんto_xml()。ただし、read_jsonツリーのような構造をデータフレームのインポートとread_htmlマークアップ形式に実装できることを証明しています。パンダのチームは、このような考慮しなければread_xmlバージョンパンダの将来のための方法を、どのような実装彼らが追求するでしょう：ビルトインで解析するxml.etree.ElementTreeのでiterfind()かiterparse()、機能やサードパーティのモジュールlxmlのXPath 1.0のとXSLT 1.0の方法で？以下は、単純でフラットな要素中心のXML入力での4つのメソッドタイプのテスト実行です。すべては、ルートの第2レベルの子の一般化された解析用に設定されており、各メソッドはまったく同じパンダデータフレームを生成する必要があります。pd.Dataframe()辞書のリストの最後の呼び出しを除くすべて。XSLTメソッドは、XMLをCSVに変換してでキャストStringIO()しpd.read_csv()ます。質問（マルチパート）パフォーマンス：iterparseファイルが繰り返し解析されるときに、サイズの大きいファイルにしばしば推奨される遅い方法をどのように説明しますか？if論理チェックが原因の一部ですか？メモリ：CPUメモリはI / O呼び出しのタイミングと相関関係がありますか？XSLTおよびXPath 1.0は、ファイル全体を解析するためにメモリ内で読み取る必要があるため、大きなXMLドキュメントではうまく拡張できない傾向があります。戦略：辞書のリストはDataframe()通話に最適な戦略ですか？これらの興味深い答えを見てください：ジェネレーターのバージョンとiterwalkのユーザー定義バージョン。両方のリストをデータフレームにアップキャストします。入力データ（私たちのパンダの友達が含まれる年別のStack Overflowの現在のトップユーザー） <?xml version="1.0" encoding="utf-8"?> <stackoverflow> <topusers> <user>Gordon Linoff</user> <link>http://www.stackoverflow.com//users/1144035/gordon-linoff</link> <location>New York, United States</location> <year_rep>5,985</year_rep> <total_rep>499,408</total_rep> <tag1>sql</tag1> <tag2>sql-server</tag2> <tag3>mysql</tag3> </topusers> <topusers> <user>Günter Zöchbauer</user> <link>http://www.stackoverflow.com//users/217408/g%c3%bcnter-z%c3%b6chbauer</link> <location>Linz, Austria</location> <year_rep>5,835</year_rep> <total_rep>154,439</total_rep> <tag1>angular2</tag1> <tag2>typescript</tag2> <tag3>javascript</tag3> </topusers> <topusers> <user>jezrael</user> …

109 python xml pandas xslt xpath

5

別の列パンダデータフレームに基づいて列値を抽出する

ある変数の値を別の変数で条件付けして抽出することに行き詰まっています。たとえば、次のデータフレーム： A B p1 1 p1 2 p3 3 p2 4 Aいつ値を取得できB=3ますか？の値を抽出するたびにA、文字列ではなくオブジェクトを取得しました。

109 python pandas dataframe

5

Python Pandasは特定の列のみをマージします

一部の列のみをマージすることは可能ですか？列x、y、z、および列x、a、b、c、d、e、fなどのdf2を持つDataFrame df1があります。 x上の2つのDataFrameをマージしたいが、DataFrame全体ではなく、列df2.a、df2.bのみをマージしたい。結果は、x、y、z、a、bのデータフレームになります。不要な列をマージしてから削除することもできますが、より良い方法があるようです。

109 python merge pandas

7

パンダの日時形式を変更する方法

私のデータフレームにはDOB列（例のフォーマット1/1/2016）があり、デフォルトでpandas dtype 'object'に変換されます。DOB object 日付形式にこれを変換するdf['DOB'] = pd.to_datetime(df['DOB'])、日付に変換されます：2016-01-26とそのはdtype次のとおりですDOB datetime64[ns]。次に、この日付形式を01/26/2016他の一般的な日付形式に、または他の一般的な日付形式に変換したいと思います。どうすればいいのですか？どの方法を試しても、日付は常に2016-01-26形式で表示されます。

109 python string pandas datetime strftime

5

zipファイルをpandas DataFrameとして読み取る

私はcsvファイルを解凍してパンダに渡そうとしていますので、ファイルで作業できます。これまでに試したコードは次のとおりです。 import requests, zipfile, StringIO r = requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip') z = zipfile.ZipFile(StringIO.StringIO(r.content)) crime2013 = pandas.read_csv(z.read('crime_incidents_2013_CSV.csv')) 最終行の後、Pythonはファイルを取得できますが、エラーの最後に「存在しない」というメッセージが表示されます。誰かが私が間違っていることを教えてもらえますか？

108 python zip pandas

11

inplace = Trueを理解する

pandasライブラリには、次のステートメントのように、オブジェクトをインプレースで変更するオプションが何度もあります。 df.dropna(axis='index', how='all', inplace=True) 何が返されるのか、inplace=True渡されたときとオブジェクトが渡されたときのオブジェクトの処理方法に興味がありますinplace=False。すべての操作はselfいつ変更されinplace=Trueますか？そして、andinplace=Falseなどの新しいオブジェクトがすぐに作成されて返されるのはいつですか？new_df = selfnew_df

108 python pandas in-place

11

FutureWarning：要素ごとの比較に失敗しました。スカラーを返しますが、将来的には要素ごとの比較を実行します

Python3でPandas0.19.1を使用しています。これらのコード行で警告が表示されます。文字列Peterが列に存在するすべての行番号を含むリストを取得しようとしていますUnnamed: 5。 df = pd.read_excel(xls_path) myRows = df[df['Unnamed: 5'] == 'Peter'].index.tolist() 警告が発生します： "\Python36\lib\site-packages\pandas\core\ops.py:792: FutureWarning: elementwise comparison failed; returning scalar, but in the future will perform elementwise comparison result = getattr(x, name)(y)" このFutureWarningとは何ですか。機能しているように見えるので、無視する必要があります。

108 python python-3.x pandas numpy matplotlib

5

SQLAlchemy ORMからpandas DataFrameへの変換

このトピックは、しばらくの間、ここまたは他の場所で扱われていません。SQLAlchemy <Query object>をpandas DataFrameに変換するソリューションはありますか？パンダには使用する機能がありますpandas.read_sqlが、これには生のSQLを使用する必要があります。私はそれを回避したい2つの理由があります：1）ORMを使用してすべてを既に持っています（それ自体に正当な理由）および2）クエリの一部としてpythonリストを使用しています（例：モデルクラスは.db.session.query(Item).filter(Item.symbol.in_(add_symbols)どこですか）Itemとadd_symbolsリストです）。これはSQLに相当しますSELECT ... from ... WHERE ... IN。何か可能ですか？

107 python pandas sqlalchemy flask-sqlalchemy

11

パンダのデカルト積

私は2つのパンダデータフレームを持っています： from pandas import DataFrame df1 = DataFrame({'col1':[1,2],'col2':[3,4]}) df2 = DataFrame({'col3':[5,6]}) 彼らのデカルト積を取得するためのベストプラクティスは何ですか（もちろん、私のように明示的にそれを書かずに）。 #df1, df2 cartesian product df_cartesian = DataFrame({'col1':[1,2,1,2],'col2':[3,4,3,4],'col3':[5,5,6,6]})

107 python pandas

5

パンダ列の合計を取得する

目標以下に示すように、複数の列を持つPandasデータフレームがあり、列の合計を取得したいと考えていますMyColumn。データフレーム -df： print df X MyColumn Y Z 0 A 84 13.0 69.0 1 B 76 77.0 127.0 2 C 28 69.0 16.0 3 D 28 28.0 31.0 4 E 19 20.0 85.0 5 F 84 193.0 70.0 私の試み： groupbyand を使用して列の合計を取得しようとしました.sum()： Total = df.groupby['MyColumn'].sum() print Total これにより、次のエラーが発生します。 TypeError: …

107 python pandas dataframe sum

11

リストまたはシリーズをパンダのDataFrameに行として追加しますか？

したがって、空のパンダDataFrameを初期化し、このDataFrameの行としてリスト（またはシリーズ）を繰り返し追加したいと思います。これを行う最良の方法は何ですか？

107 python pandas append dataframe

4

パンダの別の値に基づいて1つの値を変更する

私はStataコードをPythonに再プログラムして速度を改善しようとしていますが、PANDASの方向を指摘されました。しかし、データの処理方法に頭を悩ませています。列見出し「ID」のすべての値を反復処理するとします。そのIDが特定の番号と一致する場合、対応する2つの値FirstNameとLastNameを変更します。 Stataでは、次のようになります。 replace FirstName = "Matt" if ID==103 replace LastName = "Jones" if ID==103 したがって、これはID == 103の値に対応するFirstNameのすべての値をMattに置き換えます。 PANDASで、私はこのようなものを試しています df = read_csv("test.csv") for i in df['ID']: if i ==103: ... ここからどこに行くべきかわからない。何か案は？

107 python pandas

4

n行ごとにパンダ

Dataframe.resample（）は、timeseriesデータでのみ機能します。非時系列データからn行ごとに取得する方法が見つかりません。最良の方法は何ですか？

107 python pandas resampling

10

名前に特定の文字列が含まれる列をpandas DataFrameから削除します

次の列名のパンダデータフレームがあります。 Result1、Test1、Result2、Test2、Result3、Test3など... 名前に「Test」という単語が含まれるすべての列を削除したい。そのような列の数は静的ではなく、以前の関数に依存します。どうやってやるの？

106 python pandas dataframe

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」