タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

4
コードでパンダapply()をいつ使用したいですか?
Stack OverflowでPandasメソッドの使用に関する質問に投稿された多くの回答を見てきましたapply。また、「apply遅く、避けた方がいい」とのコメントをユーザーから見たことがあります。 パフォーマンスapplyが遅いという説明のある記事をたくさん読んだことがあります。また、ドキュメントでapplyUDFを渡すための単純な便利な関数についての免責事項も確認しました(現在、それを見つけることができないようです)。したがって、一般的なコンセンサスは、apply可能であれば回避する必要があるということです。ただし、これにより次の質問が生じます。 applyひどい場合は、なぜAPIにあるのですか? いつ、どのようにしてコードをapplyフリーにする必要がありますか? どんな状況で、これまで存在しapplyている良い(他の可能な解決策よりも良い)は?

1
パンダのread_xml()メソッドのテスト戦略
現在、pandas I / Oツールはread_xml()メソッドと対応するものを維持していませんto_xml()。ただし、read_jsonツリーのような構造をデータフレームのインポートとread_htmlマークアップ形式に実装できることを証明しています。 パンダのチームは、このような考慮しなければread_xmlバージョンパンダの将来のための方法を、どのような実装彼らが追求するでしょう:ビルトインで解析するxml.etree.ElementTreeのでiterfind()かiterparse()、機能やサードパーティのモジュールlxmlのXPath 1.0のとXSLT 1.0の方法で? 以下は、単純でフラットな要素中心のXML入力での4つのメソッドタイプのテスト実行です。すべては、ルートの第2レベルの子の一般化された解析用に設定されており、各メソッドはまったく同じパンダデータフレームを生成する必要があります。pd.Dataframe()辞書のリストの最後の呼び出しを除くすべて。XSLTメソッドは、XMLをCSVに変換してでキャストStringIO()しpd.read_csv()ます。 質問 (マルチパート) パフォーマンス:iterparseファイルが繰り返し解析されるときに、サイズの大きいファイルにしばしば推奨される遅い方法をどのように説明しますか?if論理チェックが原因の一部ですか? メモリ:CPUメモリはI / O呼び出しのタイミングと相関関係がありますか?XSLTおよびXPath 1.0は、ファイル全体を解析するためにメモリ内で読み取る必要があるため、大きなXMLドキュメントではうまく拡張できない傾向があります。 戦略:辞書のリストはDataframe()通話に最適な戦略ですか?これらの興味深い答えを見てください:ジェネレーターのバージョンとiterwalkのユーザー定義バージョン。両方のリストをデータフレームにアップキャストします。 入力データ(私たちのパンダの友達が含まれる年別のStack Overflowの現在のトップユーザー) <?xml version="1.0" encoding="utf-8"?> <stackoverflow> <topusers> <user>Gordon Linoff</user> <link>http://www.stackoverflow.com//users/1144035/gordon-linoff</link> <location>New York, United States</location> <year_rep>5,985</year_rep> <total_rep>499,408</total_rep> <tag1>sql</tag1> <tag2>sql-server</tag2> <tag3>mysql</tag3> </topusers> <topusers> <user>Günter Zöchbauer</user> <link>http://www.stackoverflow.com//users/217408/g%c3%bcnter-z%c3%b6chbauer</link> <location>Linz, Austria</location> <year_rep>5,835</year_rep> <total_rep>154,439</total_rep> <tag1>angular2</tag1> <tag2>typescript</tag2> <tag3>javascript</tag3> </topusers> <topusers> <user>jezrael</user> …
109 python  xml  pandas  xslt  xpath 


5
Python Pandasは特定の列のみをマージします
一部の列のみをマージすることは可能ですか?列x、y、z、および列x、a、b、c、d、e、fなどのdf2を持つDataFrame df1があります。 x上の2つのDataFrameをマージしたいが、DataFrame全体ではなく、列df2.a、df2.bのみをマージしたい。 結果は、x、y、z、a、bのデータフレームになります。 不要な列をマージしてから削除することもできますが、より良い方法があるようです。
109 python  merge  pandas 

7
パンダの日時形式を変更する方法
私のデータフレームにはDOB列(例のフォーマット1/1/2016)があり、デフォルトでpandas dtype 'object'に変換されます。DOB object 日付形式にこれを変換するdf['DOB'] = pd.to_datetime(df['DOB'])、日付に変換されます:2016-01-26とそのはdtype次のとおりですDOB datetime64[ns]。 次に、この日付形式を01/26/2016他の一般的な日付形式に、または他の一般的な日付形式に変換したいと思います。どうすればいいのですか? どの方法を試しても、日付は常に2016-01-26形式で表示されます。

5
zipファイルをpandas DataFrameとして読み取る
私はcsvファイルを解凍してパンダに渡そうとしていますので、ファイルで作業できます。 これまでに試したコードは次のとおりです。 import requests, zipfile, StringIO r = requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip') z = zipfile.ZipFile(StringIO.StringIO(r.content)) crime2013 = pandas.read_csv(z.read('crime_incidents_2013_CSV.csv')) 最終行の後、Pythonはファイルを取得できますが、エラーの最後に「存在しない」というメッセージが表示されます。 誰かが私が間違っていることを教えてもらえますか?
108 python  zip  pandas 

11
inplace = Trueを理解する
pandasライブラリには、次のステートメントのように、オブジェクトをインプレースで変更するオプションが何度もあります。 df.dropna(axis='index', how='all', inplace=True) 何が返されるのか、inplace=True渡されたときとオブジェクトが渡されたときのオブジェクトの処理方法に興味がありますinplace=False。 すべての操作はselfいつ変更されinplace=Trueますか?そして、andinplace=Falseなどの新しいオブジェクトがすぐに作成されて返されるのはいつですか?new_df = selfnew_df
108 python  pandas  in-place 

11
FutureWarning:要素ごとの比較に失敗しました。スカラーを返しますが、将来的には要素ごとの比較を実行します
Python3でPandas0.19.1を使用しています。これらのコード行で警告が表示されます。文字列Peterが列に存在するすべての行番号を含むリストを取得しようとしていますUnnamed: 5。 df = pd.read_excel(xls_path) myRows = df[df['Unnamed: 5'] == 'Peter'].index.tolist() 警告が発生します: "\Python36\lib\site-packages\pandas\core\ops.py:792: FutureWarning: elementwise comparison failed; returning scalar, but in the future will perform elementwise comparison result = getattr(x, name)(y)" このFutureWarningとは何ですか。機能しているように見えるので、無視する必要があります。

5
SQLAlchemy ORMからpandas DataFrameへの変換
このトピックは、しばらくの間、ここまたは他の場所で扱われていません。SQLAlchemy <Query object>をpandas DataFrameに変換するソリューションはありますか? パンダには使用する機能がありますpandas.read_sqlが、これには生のSQLを使用する必要があります。私はそれを回避したい2つの理由があります:1)ORMを使用してすべてを既に持っています(それ自体に正当な理由)および2)クエリの一部としてpythonリストを使用しています(例:モデルクラスは.db.session.query(Item).filter(Item.symbol.in_(add_symbols)どこですか)Itemとadd_symbolsリストです)。これはSQLに相当しますSELECT ... from ... WHERE ... IN。 何か可能ですか?

11
パンダのデカルト積
私は2つのパンダデータフレームを持っています: from pandas import DataFrame df1 = DataFrame({'col1':[1,2],'col2':[3,4]}) df2 = DataFrame({'col3':[5,6]}) 彼らのデカルト積を取得するためのベストプラクティスは何ですか(もちろん、私のように明示的にそれを書かずに)。 #df1, df2 cartesian product df_cartesian = DataFrame({'col1':[1,2,1,2],'col2':[3,4,3,4],'col3':[5,5,6,6]})
107 python  pandas 

5
パンダ列の合計を取得する
目標 以下に示すように、複数の列を持つPandasデータフレームがあり、列の合計を取得したいと考えていますMyColumn。 データフレーム -df: print df X MyColumn Y Z 0 A 84 13.0 69.0 1 B 76 77.0 127.0 2 C 28 69.0 16.0 3 D 28 28.0 31.0 4 E 19 20.0 85.0 5 F 84 193.0 70.0 私の試み: groupbyand を使用して列の合計を取得しようとしました.sum(): Total = df.groupby['MyColumn'].sum() print Total これにより、次のエラーが発生します。 TypeError: …
107 python  pandas  dataframe  sum 


4
パンダの別の値に基づいて1つの値を変更する
私はStataコードをPythonに再プログラムして速度を改善しようとしていますが、PANDASの方向を指摘されました。しかし、データの処理方法に頭を悩ませています。 列見出し「ID」のすべての値を反復処理するとします。そのIDが特定の番号と一致する場合、対応する2つの値FirstNameとLastNameを変更します。 Stataでは、次のようになります。 replace FirstName = "Matt" if ID==103 replace LastName = "Jones" if ID==103 したがって、これはID == 103の値に対応するFirstNameのすべての値をMattに置き換えます。 PANDASで、私はこのようなものを試しています df = read_csv("test.csv") for i in df['ID']: if i ==103: ... ここからどこに行くべきかわからない。何か案は?
107 python  pandas 

4
n行ごとにパンダ
Dataframe.resample()は、timeseriesデータでのみ機能します。非時系列データからn行ごとに取得する方法が見つかりません。最良の方法は何ですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.