プログラミング pandas

10

CSVからインポートされたデータを操作しています。パンダは一部の列を浮動小数点に変更したため、これらの列の数値は浮動小数点として表示されます。ただし、整数として、またはコンマなしで表示する必要があります。それらを整数に変換する方法、またはコンマを表示しない方法はありますか？

230 python pandas floating-point integer dataset

5

パンダシリーズの要素ごとの論理NOTを取得するにはどうすればよいですか？

Seriesブール値を含むpandas オブジェクトがあります。NOT各値の論理値を含むシリーズを取得するにはどうすればよいですか？たとえば、以下を含むシリーズを考えてみましょう。 True True True False 私が入手したいシリーズには以下が含まれます： False False False True これはかなりシンプルなはずですが、どうやら私はmojo =（

229 python pandas boolean-logic

12

パンダは他のデータフレームにない行を取得します

いくつかの行が共通する2つのパンダデータフレームがあります。 dataframe2がdataframe1のサブセットであるとします。 dataframe2にないdataframe1の行を取得するにはどうすればよいですか？ df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

229 python pandas dataframe

19

パンダデータフレームの列を正規化する

各列の値の範囲が異なるパンダのデータフレームがあります。例えば： df： A B C 1000 10 0.5 765 5 0.35 800 7 0.09 各データが0と1の間であるこのデータフレームの列をどのように正規化できるか考えていますか？私の望ましい出力は： A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)

227 python pandas dataframe normalize

5

再現可能なパンダの良い例を作る方法

この質問の答えはコミュニティの努力です。この投稿を改善するには、既存の回答を編集してください。現在、新しい回答や相互作用を受け入れていません。両方を見てかなりの時間を費やしてきた r そしてパンダSOのタグ、私が得る印象は、pandas質問が再現可能なデータを含む可能性が低いということです。これはRコミュニティが奨励することにかなり優れているものであり、このようなガイドのおかげで、新規参入者はこれらの例をまとめるのにある程度の助けを得ることができます。これらのガイドを読んで再現性のあるデータを返すことができる人は、多くの場合、自分の質問に対する答えを得るのがはるかにうまくいきます。 pandas質問の再現可能な良い例をどのように作成できますか？単純なデータフレームをまとめることができます。例： import pandas as pd df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'], 'income': [40000, 50000, 42000]}) しかし、多くのサンプルデータセットには、より複雑な構造が必要です。例： datetime インデックスまたはデータ複数のカテゴリー変数（Rのexpand.grid()関数に相当するものがあります。これは、いくつかの指定された変数のすべての可能な組み合わせを生成しますか？） MultiIndexまたはPanelデータ数行のコードを使用してモックアップするのが難しいデータセットの場合、データ構造dput()を再生成するためにコピー/ペースト可能なコードを生成できるRに相当するものはありますか？

221 python pandas

6

複数の関数を複数のgroupby列に適用する

ドキュメントには、キーとして、出力列名で辞書を使用して、一度にGROUPBYオブジェクト上で複数の機能を適用する方法を示しています。 In [563]: grouped['D'].agg({'result1' : np.sum, .....: 'result2' : np.mean}) .....: Out[563]: result2 result1 A bar -0.579846 -1.739537 foo -0.280588 -1.402938 ただし、これはSeries groupbyオブジェクトでのみ機能します。そして、dictが同様にgroupby DataFrameに渡されると、キーは、関数が適用される列名であると想定します。私がしたいことは、複数の関数を複数の列に適用することです（ただし、特定の列は複数回操作されます）。また、一部の関数はgroupbyオブジェクトの他の列に依存します（sumif関数など）。私の現在の解決策は、列ごとに行き、上記のコードのようなことをし、他の行に依存する関数にラムダを使用することです。しかし、これには長い時間がかかります（groupbyオブジェクトを反復処理するには長い時間がかかると思います）。一度の実行でgroupbyオブジェクト全体を反復処理するように変更する必要がありますが、これをパンダに幾分きれいに実行する組み込みの方法があるかどうか疑問に思っています。たとえば、私は次のようなことを試しました grouped.agg({'C_sum' : lambda x: x['C'].sum(), 'C_std': lambda x: x['C'].std(), 'D_sum' : lambda x: x['D'].sum()}, 'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), ...) しかし、予想どおり、KeyErrorが発生します（DataFrameからagg呼び出された場合、キーは列である必要があるため）。私がやりたいことを行うための組み込みの方法はありますか、またはこの機能が追加される可能性がありますか、それとも手動でgroupbyを反復処理する必要があるだけですか？ありがとう

221 python group-by aggregate-functions pandas

11

Pandas Datetime列から月と年だけを個別に抽出する

次の列のデータフレームdfがあります。 df['ArrivalDate'] = ... 936 2012-12-31 938 2012-12-29 965 2012-12-31 966 2012-12-31 967 2012-12-31 968 2012-12-31 969 2012-12-31 970 2012-12-29 971 2012-12-31 972 2012-12-29 973 2012-12-29 ... 列の要素はpandas.tslib.Timestampです。年と月だけを含めたい。簡単な方法があると思いましたが、わかりません。これが私が試したものです： df['ArrivalDate'].resample('M', how = 'mean') 次のエラーが発生しました： Only valid with DatetimeIndex or PeriodIndex それから私は試しました： df['ArrivalDate'].apply(lambda(x):x[:-2]) 次のエラーが発生しました： 'Timestamp' object has no attribute '__getitem__' …

221 python pandas

6

Pythonパンダの列名から列インデックスを取得する

Rでは、実行できる列の名前に基づいて列インデックスを取得する必要がある場合 idx <- which(names(my_data)==my_colum_name) パンダのデータフレームで同じことをする方法はありますか？

220 python pandas dataframe indexing

7

パンダのデータフレームから無限の値をドロップしますか？

nansとinf / -infの値をリセットせずにpandas DataFrameから削除する最も簡単な方法は何mode.use_inf_as_nullですか？私が使用できるようにしたいと思いますsubsetとhowの議論をdropnaしている場合を除き、inf同様に、不足していると考えられた値： df.dropna(subset=["col1", "col2"], how="all", with_inf=True) これは可能ですか？欠損値の定義dropnaに含めるように指示する方法はありinfますか？

219 python numpy scipy pandas

8

パンダはNaNを空白/空の文字列に置き換えます

以下に示すようなPandas Dataframeがあります。 1 2 3 0 a NaN read 1 b l unread 2 c NaN read 空の文字列を持つNaN値を削除して、次のようにします。 1 2 3 0 a "" read 1 b l unread 2 c "" read

217 python pandas dataframe nan

20

scikit-learnの複数の列にわたるラベルエンコーディング

文字列ラベルのLabelEncoderパンダをエンコードするためにscikit-learnを使用しようとしていますDataFrame。データフレームには多数（50以上）の列があるLabelEncoderため、列ごとにオブジェクトを作成しないようにします。私はむしろ、データのすべての列LabelEncoderにわたって機能する1つの大きなオブジェクトが欲しいだけです。全体DataFrameをにLabelEncoderスローすると、以下のエラーが発生します。ここではダミーデータを使用していることに注意してください。実際には、文字列でラベル付けされたデータの約50列を扱っているため、名前で列を参照しないソリューションが必要です。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) トレースバック（最後の最後の呼び出し）：ファイル ""、行1、ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py"、行103、フィットy = column_or_1d（y、warn = True）ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"、line 306、in column_or_1d raise ValueError（ "bad …

216 python pandas scikit-learn neuraxle

13

複数の新しい列を作成するためにパンダ関数を列に適用しますか？

パンダでこれを行う方法： extract_text_features単一のテキスト列に関数があり、複数の出力列を返します。具体的には、この関数は6つの値を返します。関数は機能しますが、出力が正しく割り当てられるような適切な戻り値の型（pandas DataFrame / numpy array / Pythonリスト）はないようです df.ix[: ,10:16] = df.textcol.map(extract_text_features) だから私はこれでdf.iterrows()、での反復に戻る必要があると思いますか？更新：での反復df.iterrows()は少なくとも20倍遅くなるため、関数を引き渡して関数を6つの異なる.map(lambda ...)呼び出しに分割しました。更新2：この質問はv0.11.0前後で尋ねられました。したがって、質問と回答の多くはあまり関連性がありません。

215 python pandas merge multiple-columns return-type

5

パンダデータフレームからHTMLに変換するときに、HTMLで完全な（切り捨てられていない）データフレーム情報を表示する方法は？

DataFrame.to_html関数を使用して、pandasデータフレームをhtml出力に変換しました。これを別のhtmlファイルに保存すると、ファイルの出力が切り捨てられます。たとえば、私のTEXT列では、 df.head(1) 表示されます映画は素晴らしい努力でした... の代わりにこの映画は、この時期に広まった複雑な社会的感情を解体するための優れた取り組みでした。このレンディションは、大規模なパンダデータフレームの画面に適した形式の場合は問題ありませんが、データフレームに含まれる完全な表形式のデータを表示するhtmlファイル、つまり、以前のテキストスニペット。 HTMLバージョンの情報のTEXT列の各要素について、切り詰められていない完全なテキストデータをどのように表示できますか？HTMLテーブルが完全なデータを表示するために長いセルを表示する必要があると想像しますが、私が理解している限り、列幅のパラメーターのみをDataFrame.to_html関数に渡すことができます。

213 python html pandas

8

行ごとに繰り返しながらパンダのデータフレームを更新する

私はこのようなパンダデータフレームを持っています（かなり大きなものです） date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 次に、行ごとに繰り返し処理を行い、各行を進むと、各行の値がifor いくつかの条件に応じて変化する可能性があるため、別のデータフレームを検索する必要があります。繰り返しながら、これをどのように更新しますか？それらのどれもうまくいかなかったいくつかのことを試しました。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

213 python pandas updates dataframe

3

パンダの空のDataFrameに追加しますか？

インデックスや列を含まない空のデータフレームに追加することはできますか？私はこれを試みましたが、最後に空のデータフレームを取得し続けます。例えば df = pd.DataFrame() data = ['some kind of data here' --> I have checked the type already, and it is a dataframe] df.append(data) 結果は次のようになります。 Empty DataFrame Columns: [] Index: []

212 python pandas

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」