タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。


6
パンダでデータフレームのコピーを作成する理由
親データフレームからサブデータフレームを選択すると、一部のプログラマーがこの.copy()メソッドを使用してデータフレームのコピーを作成することに気付きました。例えば、 X = my_dataframe[features_list].copy() ...の代わりに X = my_dataframe[features_list] データフレームのコピーを作成するのはなぜですか?コピーを作成しないとどうなりますか?

8
パンダのデータフレームの列を反復して回帰を実行する方法
これは簡単だと確信していますが、Pythonの完全な初心者として、pandasデータフレーム内の変数を反復処理し、それぞれで回帰を実行する方法を理解するのに苦労しています。 これが私がやっていることです: all_data = {} for ticker in ['FIUIX', 'FSAIX', 'FSAVX', 'FSTMX']: all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2010', '1/1/2015') prices = DataFrame({tic: data['Adj Close'] for tic, data in all_data.iteritems()}) returns = prices.pct_change() 私はこのような回帰を実行できることを知っています: regs = sm.OLS(returns.FIUIX,returns.FSTMX).fit() データフレームの列ごとにこれを実行するとします。特に、FSTMXでFIUIX、次にFSTMXでFSAIX、FSTMXでFSAVXに回帰したいと思います。各回帰の後、残差を保存します。 以下のさまざまなバージョンを試しましたが、構文が間違っているに違いありません。 resids = {} for k in returns.keys(): reg = sm.OLS(returns[k],returns.FSTMX).fit() resids[k] = reg.resid 問題は、キーで返品列を参照する方法がわからないことだと思うのでreturns[k]、おそらく間違っています。 …

4
定数値でデータフレームに列を追加する
すべての行に同じ値が含まれる列を追加する必要がある既存のデータフレームがあります。 既存のdf: Date, Open, High, Low, Close 01-01-2015, 565, 600, 400, 450 新しいdf: Name, Date, Open, High, Low, Close abc, 01-01-2015, 565, 600, 400, 450 既存のシリーズ/データフレーム列を追加する方法を知っています。ただし、これは別の状況です。必要なのは、「名前」列を追加し、すべての行を同じ値(この場合は「abc」)に設定することだけです。
187 python  pandas  dataframe 


2
パンダのリサンプルドキュメント
だから私はresampleの使い方を完全に理解していますが、ドキュメントはオプションを説明するのに適していません。 したがって、resample関数のほとんどのオプションは、次の2つを除いて非常に単純です。 ルール:ターゲット変換を表すオフセット文字列またはオブジェクト 方法:文字列、ダウンサンプリングまたはリサンプリングの方法、デフォルトは「平均」 オンラインで見つけた多くの例を見ると、ルール'D'、日、'xMin'分、'xL'ミリ秒で実行できることがわかりますが、それだけで見つけることができます。 私は以下のことを見てきた方法について:'first'、np.max、'last'、'mean'、および'n1n2n3n4...nx'NXは、各列のインデックスの最初の文字です。 では、ドキュメントのどこかに、pandas.resampleのルールのすべてのオプションと入力方法が表示されていませんか?はいの場合、どこで見つけられませんでした。いいえの場合、それらのすべてのオプションは何ですか?

11
データ型に基づいてパンダのデータフレーム列のリストを取得します
次の列を持つデータフレームがある場合: 1. NAME object 2. On_Time object 3. On_Budget object 4. %actual_hr float64 5. Baseline Start Date datetime64[ns] 6. Forecast Start Date datetime64[ns] 私は言いたいのですが、ここにデータフレームがあります。ObjectタイプまたはDateTimeタイプの列のリストを教えてください。 数値(Float64)を小数点以下2桁に変換する関数があります。特定のタイプのこのデータフレーム列のリストを使用し、この関数を実行してすべてを2 dpに変換したいと思います。 多分: For c in col_list: if c.dtype = "Something" list[] List.append(c)?
184 python  pandas 

7
選択した特定の列を新しいDataFrameにコピーとして抽出する
4列のpandas DataFrameがあり、列が3つだけの新しい DataFrame を作成したいと思います。この質問は次のようなものです。データフレームから特定の列を抽出するが、Rではないパンダの場合。次のコードは機能せず、エラーが発生し、パンダの方法ではありません。 import pandas as pd old = pd.DataFrame({'A' : [4,5], 'B' : [10,20], 'C' : [100,50], 'D' : [-30,-50]}) new = pd.DataFrame(zip(old.A, old.C, old.D)) # raises TypeError: data argument can't be an iterator それを行うためのパンダニックな方法は何ですか?


5
パンダで列を文字列に変換する
SQLクエリからの次のDataFrameがあります。 (Pdb) pp total_rows ColumnID RespondentCount 0 -1 2 1 3030096843 1 2 3030096845 1 そして、私はそれをこのようにピボットしたいです: total_data = total_rows.pivot_table(cols=['ColumnID']) (Pdb) pp total_data ColumnID -1 3030096843 3030096845 RespondentCount 2 1 1 [1 rows x 3 columns] total_rows.pivot_table(cols=['ColumnID']).to_dict('records')[0] {3030096843: 1, 3030096845: 1, -1: 2} しかし、303列が整数ではなく文字列としてキャストされるようにして、次のようにします。 {'3030096843': 1, '3030096845': 1, -1: 2}
178 python  numpy  pandas 

3
リストのリストをpandas DataFrameに取得する
スプレッドシートの内容をパンダに読み込んでいます。DataNitroには、セルの長方形の選択をリストのリストとして返すメソッドがあります。そう table = Cell("A1").table 与える table = [['Heading1', 'Heading2'], [1 , 2], [3, 4]] headers = table.pop(0) # gives the headers as list and leaves data 私はこれを翻訳するためのコードを書くのに忙しいのですが、これは非常に単純な使い方なので、これを行うための方法が必要だと思います。ドキュメントでそれを見つけることができないようです。これを簡単にするメソッドへのポインタはありますか?
177 python  pandas  datanitro 


9
pandas DataFrame:nan値を列の平均で置き換えます
私はほとんど実数で満たされたパンダのDataFrameを持っていますが、それにはいくつかのnan値もあります。 どのようにしてnansをそれらが存在する列の平均で置き換えることができますか? この質問はこれと非常に似ています:numpy配列:nan値を列の平均で置き換えます が、残念ながら、そこに与えられた解決策はpandas DataFrameでは機能しません。
177 python  pandas  nan 

3
パンダのDataFrameの最後のN行を取得するにはどうすればよいですか?
私はパンダのデータフレーム持っているdf1とdf2(DF1はバニラのデータフレーム、DF2が「STK_ID」&「RPT_Date」でインデックス化されているが)。 >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 12.940 NaN 6 000568 20070930 39.12 19.977 NaN …
175 python  pandas  dataframe 

12
NaNを含むPandas列をdtype `int`に変換します
以下のように、.csvファイルからPandasデータフレームにデータを読み取ります。列の1つ、つまりについてid、列のタイプをとして指定しますint。問題は、idシリーズに欠損値/空の値があることです。 id.csvの読み取り中に列を整数にキャストしようとすると、次のようになります。 df= pd.read_csv("data.csv", dtype={'id': int}) error: Integer column has NA values または、以下のように読んだ後、列タイプを変換しようとしましたが、今回は次のようになります: df= pd.read_csv("data.csv") df[['id']] = df[['id']].astype(int) error: Cannot convert NA to integer どうすればこれに取り組むことができますか?
175 python  pandas  na 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.