タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

10
パンダでフロートを整数に変換しますか?
CSVからインポートされたデータを操作しています。パンダは一部の列を浮動小数点に変更したため、これらの列の数値は浮動小数点として表示されます。ただし、整数として、またはコンマなしで表示する必要があります。それらを整数に変換する方法、またはコンマを表示しない方法はありますか?

5
パンダシリーズの要素ごとの論理NOTを取得するにはどうすればよいですか?
Seriesブール値を含むpandas オブジェクトがあります。NOT各値の論理値を含むシリーズを取得するにはどうすればよいですか? たとえば、以下を含むシリーズを考えてみましょう。 True True True False 私が入手したいシリーズには以下が含まれます: False False False True これはかなりシンプルなはずですが、どうやら私はmojo =(

12
パンダは他のデータフレームにない行を取得します
いくつかの行が共通する2つのパンダデータフレームがあります。 dataframe2がdataframe1のサブセットであるとします。 dataframe2にないdataframe1の行を取得するにはどうすればよいですか? df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})
229 python  pandas  dataframe 

19
パンダデータフレームの列を正規化する
各列の値の範囲が異なるパンダのデータフレームがあります。例えば: df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09 各データが0と1の間であるこのデータフレームの列をどのように正規化できるか考えていますか? 私の望ましい出力は: A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)

5
再現可能なパンダの良い例を作る方法
この質問の答えはコミュニティの努力です。この投稿を改善するには、既存の回答を編集してください。現在、新しい回答や相互作用を受け入れていません。 両方を見てかなりの時間を費やしてきた r そして パンダSOのタグ、私が得る印象は、pandas質問が再現可能なデータを含む可能性が低いということです。これはRコミュニティが奨励することにかなり優れているものであり、このようなガイドのおかげで、新規参入者はこれらの例をまとめるのにある程度の助けを得ることができます。これらのガイドを読んで再現性のあるデータを返すことができる人は、多くの場合、自分の質問に対する答えを得るのがはるかにうまくいきます。 pandas質問の再現可能な良い例をどのように作成できますか?単純なデータフレームをまとめることができます。例: import pandas as pd df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'], 'income': [40000, 50000, 42000]}) しかし、多くのサンプルデータセットには、より複雑な構造が必要です。例: datetime インデックスまたはデータ 複数のカテゴリー変数(Rのexpand.grid()関数に相当するものがあります。これは、いくつかの指定された変数のすべての可能な組み合わせを生成しますか?) MultiIndexまたはPanelデータ 数行のコードを使用してモックアップするのが難しいデータセットの場合、データ構造dput()を再生成するためにコピー/ペースト可能なコードを生成できるRに相当するものはありますか?
221 python  pandas 

6
複数の関数を複数のgroupby列に適用する
ドキュメントには、キーとして、出力列名で辞書を使用して、一度にGROUPBYオブジェクト上で複数の機能を適用する方法を示しています。 In [563]: grouped['D'].agg({'result1' : np.sum, .....: 'result2' : np.mean}) .....: Out[563]: result2 result1 A bar -0.579846 -1.739537 foo -0.280588 -1.402938 ただし、これはSeries groupbyオブジェクトでのみ機能します。そして、dictが同様にgroupby DataFrameに渡されると、キーは、関数が適用される列名であると想定します。 私がしたいことは、複数の関数を複数の列に適用することです(ただし、特定の列は複数回操作されます)。また、一部の関数はgroupbyオブジェクトの他の列に依存します(sumif関数など)。私の現在の解決策は、列ごとに行き、上記のコードのようなことをし、他の行に依存する関数にラムダを使用することです。しかし、これには長い時間がかかります(groupbyオブジェクトを反復処理するには長い時間がかかると思います)。一度の実行でgroupbyオブジェクト全体を反復処理するように変更する必要がありますが、これをパンダに幾分きれいに実行する組み込みの方法があるかどうか疑問に思っています。 たとえば、私は次のようなことを試しました grouped.agg({'C_sum' : lambda x: x['C'].sum(), 'C_std': lambda x: x['C'].std(), 'D_sum' : lambda x: x['D'].sum()}, 'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), ...) しかし、予想どおり、KeyErrorが発生します(DataFrameからagg呼び出された場合、キーは列である必要があるため)。 私がやりたいことを行うための組み込みの方法はありますか、またはこの機能が追加される可能性がありますか、それとも手動でgroupbyを反復処理する必要があるだけですか? ありがとう

11
Pandas Datetime列から月と年だけを個別に抽出する
次の列のデータフレームdfがあります。 df['ArrivalDate'] = ... 936 2012-12-31 938 2012-12-29 965 2012-12-31 966 2012-12-31 967 2012-12-31 968 2012-12-31 969 2012-12-31 970 2012-12-29 971 2012-12-31 972 2012-12-29 973 2012-12-29 ... 列の要素はpandas.tslib.Timestampです。 年と月だけを含めたい。簡単な方法があると思いましたが、わかりません。 これが私が試したものです: df['ArrivalDate'].resample('M', how = 'mean') 次のエラーが発生しました: Only valid with DatetimeIndex or PeriodIndex それから私は試しました: df['ArrivalDate'].apply(lambda(x):x[:-2]) 次のエラーが発生しました: 'Timestamp' object has no attribute '__getitem__' …
221 python  pandas 


7
パンダのデータフレームから無限の値をドロップしますか?
nansとinf / -infの値をリセットせずにpandas DataFrameから削除する最も簡単な方法は何mode.use_inf_as_nullですか?私が使用できるようにしたいと思いますsubsetとhowの議論をdropnaしている場合を除き、inf同様に、不足していると考えられた値: df.dropna(subset=["col1", "col2"], how="all", with_inf=True) これは可能ですか?欠損値の定義dropnaに含めるように指示する方法はありinfますか?
219 python  numpy  scipy  pandas 


20
scikit-learnの複数の列にわたるラベルエンコーディング
文字列ラベルのLabelEncoderパンダをエンコードするためにscikit-learnを使用しようとしていますDataFrame。データフレームには多数(50以上)の列があるLabelEncoderため、列ごとにオブジェクトを作成しないようにします。私はむしろ、データのすべての列LabelEncoderにわたって機能する1つの大きなオブジェクトが欲しいだけです。 全体DataFrameをにLabelEncoderスローすると、以下のエラーが発生します。ここではダミーデータを使用していることに注意してください。実際には、文字列でラベル付けされたデータの約50列を扱っているため、名前で列を参照しないソリューションが必要です。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) トレースバック(最後の最後の呼び出し):ファイル ""、行1、ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py"、行103、フィットy = column_or_1d(y、warn = True)ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"、line 306、in column_or_1d raise ValueError( "bad …

13
複数の新しい列を作成するためにパンダ関数を列に適用しますか?
パンダでこれを行う方法: extract_text_features単一のテキスト列に関数があり、複数の出力列を返します。具体的には、この関数は6つの値を返します。 関数は機能しますが、出力が正しく割り当てられるような適切な戻り値の型(pandas DataFrame / numpy array / Pythonリスト)はないようです df.ix[: ,10:16] = df.textcol.map(extract_text_features) だから私はこれでdf.iterrows()、での反復に戻る必要があると思いますか? 更新:での反復df.iterrows()は少なくとも20倍遅くなるため、関数を引き渡して関数を6つの異なる.map(lambda ...)呼び出しに分割しました。 更新2:この質問はv0.11.0前後で尋ねられました。したがって、質問と回答の多くはあまり関連性がありません。

5
パンダデータフレームからHTMLに変換するときに、HTMLで完全な(切り捨てられていない)データフレーム情報を表示する方法は?
DataFrame.to_html関数を使用して、pandasデータフレームをhtml出力に変換しました。これを別のhtmlファイルに保存すると、ファイルの出力が切り捨てられます。 たとえば、私のTEXT列では、 df.head(1) 表示されます 映画は素晴らしい努力でした... の代わりに この映画は、この時期に広まった複雑な社会的感情を解体するための優れた取り組みでした。 このレンディションは、大規模なパンダデータフレームの画面に適した形式の場合は問題ありませんが、データフレームに含まれる完全な表形式のデータを表示するhtmlファイル、つまり、以前のテキストスニペット。 HTMLバージョンの情報のTEXT列の各要素について、切り詰められていない完全なテキストデータをどのように表示できますか?HTMLテーブルが完全なデータを表示するために長いセルを表示する必要があると想像しますが、私が理解している限り、列幅のパラメーターのみをDataFrame.to_html関数に渡すことができます。
213 python  html  pandas 

8
行ごとに繰り返しながらパンダのデータフレームを更新する
私はこのようなパンダデータフレームを持っています(かなり大きなものです) date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 次に、行ごとに繰り返し処理を行い、各行を進むと、各行の値がifor いくつかの条件に応じて変化する可能性があるため、別のデータフレームを検索する必要があります。 繰り返しながら、これをどのように更新しますか?それらのどれもうまくいかなかったいくつかのことを試しました。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

3
パンダの空のDataFrameに追加しますか?
インデックスや列を含まない空のデータフレームに追加することはできますか? 私はこれを試みましたが、最後に空のデータフレームを取得し続けます。 例えば df = pd.DataFrame() data = ['some kind of data here' --> I have checked the type already, and it is a dataframe] df.append(data) 結果は次のようになります。 Empty DataFrame Columns: [] Index: []
212 python  pandas 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.