プログラミング pandas

9

私の個人的な好みに基づいてパンダデータフレームの列を並べ替える方法はありますか（つまり、アルファベット順または数値順ではなく、特定の規則に従うような方法）？簡単な例： frame = pd.DataFrame({ 'one thing':[1,2,3,4], 'second thing':[0.1,0.2,1,2], 'other thing':['a','e','i','o']}) これを生成します： one thing other thing second thing 0 1 a 0.1 1 2 e 0.2 2 3 i 1.0 3 4 o 2.0 しかし、代わりに、私はこれを望みます： one thing second thing other thing 0 1 0.1 a 1 2 0.2 e 2 …

103 python pandas

5

DataFrameをpostgresテーブルに書き込む方法は？

DataFrame.to_sqlメソッドがありますが、これはmysql、sqlite、およびoracleデータベースでのみ機能します。このメソッドにpostgres接続またはsqlalchemyエンジンを渡すことができません。

103 python postgresql pandas sqlalchemy

10

Pandasデータフレームの日付を「日付」データ型に変換するにはどうすればよいですか？

Pandasデータフレームがあります。列の1つに日付形式の形式の文字列が含まれています YYYY-MM-DD 例えば '2013-10-28' 現時点でdtypeは、列のはobjectです。列の値をPandasの日付形式に変換するにはどうすればよいですか？

103 python date pandas

7

パンダデータフレームのデータの最後の行を削除する方法

これは簡単なはずですが、いくつかのアイデアを試しましたが、どれもうまくいきませんでした。 last_row = len(DF) DF = DF.drop(DF.index[last_row]) #<-- fail! 負のインデックスを使用してみましたが、それもエラーにつながります。私はまだ基本的なことを誤解しているに違いありません。

103 python pandas

6

ゼロで満たされたパンダデータフレームの作成

特定のサイズのゼロで満たされたパンダデータフレームを作成する最良の方法は何ですか？利用した： zero_data = np.zeros(shape=(len(data),len(feature_list))) d = pd.DataFrame(zero_data, columns=feature_list) それを行うより良い方法はありますか？

103 python pandas dataframe

8

AlpineLinuxにPandasをインストールするのに何年もかかるのはなぜですか

ベースOSのAlpineとCentOSまたはDebianを使用してDockerコンテナにPandasとNumpy（依存関係）をインストールするのにはるかに時間がかかることに気づきました。以下に、時差を示すための小さなテストを作成しました。AlpineがPandasとNumpyをインストールするためにビルドの依存関係を更新およびダウンロードするのにかかる数秒を除いて、setup.pyがDebianのインストールよりも約70倍長い時間がかかるのはなぜですか？ Alpineをベースイメージとして使用してインストールを高速化する方法はありますか、またはPandasやNumpyなどのパッケージに使用するのに適したAlpineに匹敵するサイズの別のベースイメージがありますか？ Dockerfile.debian FROM python:3.6.4-slim-jessie RUN pip install pandas Pandas＆NumpyでDebianイメージをビルドします。 [PandasDockerTest] time docker build -t debian-pandas -f Dockerfile.debian . --no-cache Sending build context to Docker daemon 3.072kB Step 1/2 : FROM python:3.6.4-slim-jessie ---> 43431c5410f3 Step 2/2 : RUN pip install pandas ---> Running in 2e4c030f8051 Collecting pandas Downloading pandas-0.22.0-cp36-cp36m-manylinux1_x86_64.whl (26.2MB) …

103 pandas numpy docker alpine

5

if-elif-else条件に基づいて新しい列を作成する

私はDataFrameを持っていますdf： A B a 2 2 b 3 1 c 1 3 次の基準に基づいて新しい列を作成したいと思います。行の場合 A == B: 0 行の場合A > B: 1 行の場合 A < B: -1 したがって、上記の表を考えると、次のようになります。 A B C a 2 2 0 b 3 1 1 c 1 3 -1 if else私が行う典型的なケースではnp.where(df.A > df.B, 1, -1)、パンダは1つのステップで問題を解決するための特別な構文を提供しますか（3つの新しい列を作成して結果を組み合わせる必要はありません）？

103 python pandas conditional

10

Pythonパンダ-2つのデータフレームの違いを見つける

2つのデータフレームdf1とdf2があります。ここで、df2はdf1のサブセットです。2つのデータフレームの違いである新しいデータフレーム（df3）を取得するにはどうすればよいですか？言い換えると、df2にないdf1のすべての行/列を持つデータフレーム？

103 python pandas dataframe

6

iPythonのパンダライブラリを使用して.xlsxファイルを読み取る方法は？

PythonのPandasライブラリを使用して.xlsxファイルを読み取り、そのデータをpostgreSQLテーブルに移植したいと考えています。私が今までにできることは次のとおりです。 import pandas as pd data = pd.ExcelFile("*File Name*") これで、ステップが正常に実行されたことがわかりましたが、読み込まれたExcelファイルを解析して、Excelのデータが変数データのデータにどのようにマップされるかを理解できるようにしたいと思います。私が間違っていなければ、データはDataframeオブジェクトであることを学びました。では、このデータフレームオブジェクトを解析して、各行を行ごとに抽出する方法を教えてください。

102 python pandas ipython ipython-notebook dataframe

12

パンダデータフレームのすべてゼロの行をドロップ

pandas dropna()一部またはすべての列がに設定されている行を削除する機能を使用できますNA。すべての列の値が0の行を削除するための同等の関数はありますか？ P kt b tt mky depth 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 0 0 0 4 0 0 0 0 0 5 1.1 3 4.5 2.3 9.0 この例では、データフレームから最初の4行を削除します。ありがとう！

102 python pandas

4

パンダのデータフレームに定数値の列を追加[複製]

この質問にはすでにここに答えがあります：定数値でデータフレームに列を追加します（4つの回答） 4か月前に閉鎖されました。 DataFrameが与えられた場合： np.random.seed(0) df = pd.DataFrame(np.random.randn(3, 3), columns=list('ABC'), index=[1, 2, 3]) df A B C 1 1.764052 0.400157 0.978738 2 2.240893 1.867558 -0.977278 3 0.950088 -0.151357 -0.103219 0などの定数値を含む新しい列を追加する最も簡単な方法は何ですか？ A B C new 1 1.764052 0.400157 0.978738 0 2 2.240893 1.867558 -0.977278 0 3 0.950088 -0.151357 -0.103219 0 …

102 python pandas

2

Python / numpy / pandasで任意のオブジェクトがNaNであるかどうかを効率的にチェックしていますか？

私の派手な配列はnp.nan欠損値を指定するために使用します。データセットを反復処理するとき、そのような欠損値を検出して特別な方法で処理する必要があります。単純に私はを使用しましたがnumpy.isnan(val)、がvalサポートするタイプのサブセットに含まれない限り、うまく機能しnumpy.isnan()ます。たとえば、不足しているデータが文字列フィールドで発生する可能性があります。その場合、次のようになります。 >>> np.isnan('some_string') Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: Not implemented for this type 例外をキャッチして返す高価なラッパーを作成する以外Falseに、これをエレガントかつ効率的に処理する方法はありますか？

101 python numpy pandas

6

パンダの複数のデータフレーム列で「個別」を選択する方法は？

SQLと同等の方法を探しています SELECT DISTINCT col1, col2 FROM dataframe_table パンダのSQL比較には、に関する何もありませんdistinct。 .unique() 単一の列でのみ機能するので、列を連結するか、それらをリスト/タプルに入れてその方法で比較できると思いますが、これはパンダがよりネイティブな方法で行うべきもののようです。明らかなものがないか、これを行う方法はありませんか？

101 python pandas

2

'DataFrame'オブジェクトには属性 'sort'がありません

私はここでいくつかの問題に直面しています、私のpythonパッケージでnumpyをインストールしましたが、まだこのエラーがあります'DataFrame'オブジェクトには属性 'sort'がありません誰でも私にいくつかのアイデアを与えることができます。これは私のコードです： final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

101 python pandas numpy dataframe

8

パンダデータフレームでカテゴリデータを変換する

このタイプのデータを含むデータフレームがあります（列が多すぎます）。 col1 int64 col2 int64 col3 category col4 category col5 category 列は次のようになります： Name: col3, dtype: category Categories (8, object): [B, C, E, G, H, N, S, W] 次のように、列のすべての値を整数に変換したい： [1, 2, 3, 4, 5, 6, 7, 8] 私はこれによって1つの列についてこれを解決しました： dataframe['c'] = pandas.Categorical.from_array(dataframe.col3).codes 今、私は私のデータフレームに2つの列を持っています-古いものcol3と新しいものでc、古い列を削除する必要があります。それは悪い習慣です。それは機能しますが、私のデータフレームには多くの列があり、手動で実行したくありません。これはどのようにしてpythonicで巧妙に行われますか？

101 python pandas

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」