タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

9
パンダデータフレームの列の順序を設定する
私の個人的な好みに基づいてパンダデータフレームの列を並べ替える方法はありますか(つまり、アルファベット順または数値順ではなく、特定の規則に従うような方法)? 簡単な例: frame = pd.DataFrame({ 'one thing':[1,2,3,4], 'second thing':[0.1,0.2,1,2], 'other thing':['a','e','i','o']}) これを生成します: one thing other thing second thing 0 1 a 0.1 1 2 e 0.2 2 3 i 1.0 3 4 o 2.0 しかし、代わりに、私はこれを望みます: one thing second thing other thing 0 1 0.1 a 1 2 0.2 e 2 …
103 python  pandas 



7
パンダデータフレームのデータの最後の行を削除する方法
これは簡単なはずですが、いくつかのアイデアを試しましたが、どれもうまくいきませんでした。 last_row = len(DF) DF = DF.drop(DF.index[last_row]) #<-- fail! 負のインデックスを使用してみましたが、それもエラーにつながります。私はまだ基​​本的なことを誤解しているに違いありません。
103 python  pandas 


8
AlpineLinuxにPandasをインストールするのに何年もかかるのはなぜですか
ベースOSのAlpineとCentOSまたはDebianを使用してDockerコンテナにPandasとNumpy(依存関係)をインストールするのにはるかに時間がかかることに気づきました。以下に、時差を示すための小さなテストを作成しました。AlpineがPandasとNumpyをインストールするためにビルドの依存関係を更新およびダウンロードするのにかかる数秒を除いて、setup.pyがDebianのインストールよりも約70倍長い時間がかかるのはなぜですか? Alpineをベースイメージとして使用してインストールを高速化する方法はありますか、またはPandasやNumpyなどのパッケージに使用するのに適したAlpineに匹敵するサイズの別のベースイメージがありますか? Dockerfile.debian FROM python:3.6.4-slim-jessie RUN pip install pandas Pandas&NumpyでDebianイメージをビルドします。 [PandasDockerTest] time docker build -t debian-pandas -f Dockerfile.debian . --no-cache Sending build context to Docker daemon 3.072kB Step 1/2 : FROM python:3.6.4-slim-jessie ---> 43431c5410f3 Step 2/2 : RUN pip install pandas ---> Running in 2e4c030f8051 Collecting pandas Downloading pandas-0.22.0-cp36-cp36m-manylinux1_x86_64.whl (26.2MB) …
103 pandas  numpy  docker  alpine 

5
if-elif-else条件に基づいて新しい列を作成する
私はDataFrameを持っていますdf: A B a 2 2 b 3 1 c 1 3 次の基準に基づいて新しい列を作成したいと思います。 行の場合 A == B: 0 行の場合A > B: 1 行の場合 A < B: -1 したがって、上記の表を考えると、次のようになります。 A B C a 2 2 0 b 3 1 1 c 1 3 -1 if else私が行う典型的なケースではnp.where(df.A > df.B, 1, -1)、パンダは1つのステップで問題を解決するための特別な構文を提供しますか(3つの新しい列を作成して結果を組み合わせる必要はありません)?


6
iPythonのパンダライブラリを使用して.xlsxファイルを読み取る方法は?
PythonのPandasライブラリを使用して.xlsxファイルを読み取り、そのデータをpostgreSQLテーブルに移植したいと考えています。 私が今までにできることは次のとおりです。 import pandas as pd data = pd.ExcelFile("*File Name*") これで、ステップが正常に実行されたことがわかりましたが、読み込まれたExcelファイルを解析して、Excelのデータが変数データのデータにどのようにマップされるかを理解できるようにしたいと思います。 私が間違っていなければ、データはDataframeオブジェクトであることを学びました。では、このデータフレームオブジェクトを解析して、各行を行ごとに抽出する方法を教えてください。

12
パンダデータフレームのすべてゼロの行をドロップ
pandas dropna()一部またはすべての列がに設定されている行を削除する機能を使用できますNA。すべての列の値が0の行を削除するための同等の関数はありますか? P kt b tt mky depth 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 0 0 0 4 0 0 0 0 0 5 1.1 3 4.5 2.3 9.0 この例では、データフレームから最初の4行を削除します。 ありがとう!
102 python  pandas 

4
パンダのデータフレームに定数値の列を追加[複製]
この質問にはすでにここに答えがあります: 定数値でデータフレームに列を追加します (4つの回答) 4か月前に閉鎖されました。 DataFrameが与えられた場合: np.random.seed(0) df = pd.DataFrame(np.random.randn(3, 3), columns=list('ABC'), index=[1, 2, 3]) df A B C 1 1.764052 0.400157 0.978738 2 2.240893 1.867558 -0.977278 3 0.950088 -0.151357 -0.103219 0などの定数値を含む新しい列を追加する最も簡単な方法は何ですか? A B C new 1 1.764052 0.400157 0.978738 0 2 2.240893 1.867558 -0.977278 0 3 0.950088 -0.151357 -0.103219 0 …
102 python  pandas 

2
Python / numpy / pandasで任意のオブジェクトがNaNであるかどうかを効率的にチェックしていますか?
私の派手な配列はnp.nan欠損値を指定するために使用します。データセットを反復処理するとき、そのような欠損値を検出して特別な方法で処理する必要があります。 単純に私はを使用しましたがnumpy.isnan(val)、がvalサポートするタイプのサブセットに含まれない限り、うまく機能しnumpy.isnan()ます。たとえば、不足しているデータが文字列フィールドで発生する可能性があります。その場合、次のようになります。 >>> np.isnan('some_string') Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: Not implemented for this type 例外をキャッチして返す高価なラッパーを作成する以外Falseに、これをエレガントかつ効率的に処理する方法はありますか?
101 python  numpy  pandas 

6
パンダの複数のデータフレーム列で「個別」を選択する方法は?
SQLと同等の方法を探しています SELECT DISTINCT col1, col2 FROM dataframe_table パンダのSQL比較には、に関する何もありませんdistinct。 .unique() 単一の列でのみ機能するので、列を連結するか、それらをリスト/タプルに入れてその方法で比較できると思いますが、これはパンダがよりネイティブな方法で行うべきもののようです。 明らかなものがないか、これを行う方法はありませんか?
101 python  pandas 

2
'DataFrame'オブジェクトには属性 'sort'がありません
私はここでいくつかの問題に直面しています、私のpythonパッケージでnumpyをインストールしましたが、まだこのエラーがあります'DataFrame'オブジェクトには属性 'sort'がありません 誰でも私にいくつかのアイデアを与えることができます。 これは私のコードです: final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

8
パンダデータフレームでカテゴリデータを変換する
このタイプのデータを含むデータフレームがあります(列が多すぎます)。 col1 int64 col2 int64 col3 category col4 category col5 category 列は次のようになります: Name: col3, dtype: category Categories (8, object): [B, C, E, G, H, N, S, W] 次のように、列のすべての値を整数に変換したい: [1, 2, 3, 4, 5, 6, 7, 8] 私はこれによって1つの列についてこれを解決しました: dataframe['c'] = pandas.Categorical.from_array(dataframe.col3).codes 今、私は私のデータフレームに2つの列を持っています-古いものcol3と新しいものでc、古い列を削除する必要があります。 それは悪い習慣です。それは機能しますが、私のデータフレームには多くの列があり、手動で実行したくありません。 これはどのようにしてpythonicで巧妙に行われますか?
101 python  pandas 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.