プログラミング dataframe

10

postgreSQLデータベースにデータを保存しています。私はPython2.7を使用してこのデータをクエリし、Pandas DataFrameに変換しています。ただし、このデータフレームの最後の列には、その中に値の辞書（またはリスト？）があります。DataFrameは次のようになります。 [1] df Station ID Pollutants 8809 {"a": "46", "b": "3", "c": "12"} 8810 {"a": "36", "b": "5", "c": "8"} 8811 {"b": "2", "c": "7"} 8812 {"c": "11"} 8813 {"a": "82", "c": "15"} この列を個別の列に分割して、DataFrameが次のようになるようにする必要があります。 [2] df2 Station ID a b c 8809 46 3 12 8810 36 5 8 …

146 python pandas dictionary dataframe

2

Pandas MultiIndex DataFrameの行を選択する

の行を選択/フィルタリングする最も一般的なパンダの方法は何ですかインデックスがMultiIndexでデータフレームのは何ですか？単一の値/ラベルに基づくスライス 1つ以上のレベルの複数のラベルに基づくスライスブール条件と式でのフィルタリングどの方法がどのような状況で適用可能か単純化の前提：入力データフレームに重複するインデックスキーがありません下の入力データフレームには2つのレベルしかありません。（ここに示されているほとんどのソリューションは、Nレベルに一般化されています）入力例： mux = pd.MultiIndex.from_arrays([ list('aaaabbbbbccddddd'), list('tuvwtuvwtuvwtuvw') ], names=['one', 'two']) df = pd.DataFrame({'col': np.arange(len(mux))}, mux) col one two a t 0 u 1 v 2 w 3 b t 4 u 5 v 6 w 7 t 8 c u 9 v …

145 python pandas dataframe slice multi-index

7

Pandas dataframe fillna（）一部の列のみが配置されている

列の一部のサブセットについてのみ、Pandasデータフレームの値を0で埋めようとしています。私がする時： import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df 出力： a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 8.0 a b c 0 1.0 4.0 0.0 1 2.0 5.0 0.0 2 3.0 0.0 7.0 …

144 python pandas dataframe

7

PandasデータフレームでNaN値を含む列を見つける方法

あちこちに散らばっている可能性のあるNaN値を含むpandasデータフレームがあるとします。質問：どの列にNaN値が含まれるかを判断するにはどうすればよいですか？特に、NaNを含む列名のリストを取得できますか？

144 python pandas dataframe nan

8

各グループの最初の行を選択するにはどうすればよいですか？

次のように生成されたDataFrameがあります。 df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 結果は次のようになります。 +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | 2| cat56| 39.6| | 2| …

143 sql scala apache-spark dataframe apache-spark-sql

6

pandas DataFrameの最初の列をシリーズとして取得する方法は？

私は試した： x=pandas.DataFrame(...) s = x.take([0], axis=1) またs、SeriesではなくDataFrameを取得します。

142 python dataframe pandas series

14

列のNA値の数を決定する

NAデータフレーム列の値の数を数えたい。私のデータフレームが呼び出されdf、検討している列の名前がそうだとしますcol。私が思いついた方法は次のとおりです： sapply(df$col, function(x) sum(length(which(is.na(x))))) これはこれを行うための良い/最も効率的な方法ですか？

142 r dataframe

8

Pandas DataFrameインデックスの名前を変更

ヘッダーのないcsvファイルに、DateTimeインデックスを付けました。インデックスと列名の名前を変更したいのですが、df.rename（）を使用すると、列名のみが名前変更されます。バグ？バージョン0.12.0を使用しています In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667 In [4]: df.rename(index={0:'Date'}, columns={1:'SM'}, inplace=True) In [5]: df.head() Out[5]: SM 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667

141 python pandas dataframe

9

pandas DataFrameの前の値でNaNを置き換える方法は？

いくつかNaNのs を持つDataFrameがあるとします。 >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 私がする必要があるのは、すべてNaNをそのNaN上の同じ列の最初の非値で置き換えることです。最初の行にはが含まれないことが想定されていNaNます。したがって、前の例の結果は次のようになります 0 1 2 0 1 2 3 1 4 2 3 2 4 …

140 python python-3.x pandas dataframe nan

3

Rでdata.frameを保存する方法は？

Rでそれほど大きくないdata.frameを作成しましたが、ビルドにかなり時間がかかります。それをファイルとして保存したいのですが、Rで再び開くことができますか？

137 r dataframe

2

Spark DataFrameに定数列を追加するにはどうすればよいですか？

DataFrame任意の値を持つ列を追加します（各行で同じです）。withColumn次のように使用するとエラーが発生します。 dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, name=u'Bob', age2=7)] 1167 """ -> 1168 return self.select('*', col.alias(colName)) 1169 1170 @ignore_unicode_prefix AttributeError: 'int' object …

137 python apache-spark dataframe pyspark apache-spark-sql

7

名前に特定の文字列を含む列を検索する

列名を含むデータフレームがあり、特定の文字列を含むが、完全に一致しないものを見つけたいのですが。私が探してる'spike'ような列名で'spike-2'、'hey spike'、'spiked-in'（'spike'一部は常に連続しています）。列名が文字列または変数として返されるようにしたいので、後で、df['name']またはdf[name]通常どおりに列にアクセスします。私はこれを行う方法を見つけようとしましたが、役に立ちませんでした。任意のヒント？

137 python python-3.x string pandas dataframe

5

パンダのデータフレームは各グループの最初の行を取得します

DataFrame次のようなパンダがいます。 df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) これを["id"、 "value"]でグループ化し、各グループの最初の行を取得します。 id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 third 7 3 fourth 8 3 fifth 9 4 second 10 4 fifth 11 …

137 python pandas dataframe

6

sklearnによるパンダデータフレーム列のスケーリング

混合型の列を持つpandasデータフレームがあり、sklearnのmin_max_scalerをいくつかの列に適用したいと思います。理想的には、これらの変換を適切に実行したいのですが、その方法をまだ理解していません。機能する次のコードを作成しました。 import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …

137 python pandas scikit-learn dataframe

4

2つのpandas Dataframe列の辞書を作成する最も効率的な方法は何ですか？

次のパンダデータフレームを整理する最も効率的な方法は何ですか。データ= Position Letter 1 a 2 b 3 c 4 d 5 e のような辞書にalphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']？

136 python dictionary pandas dataframe

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」