タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

10
Pandas列内の辞書/リストを個別の列に分割する
postgreSQLデータベースにデータを保存しています。私はPython2.7を使用してこのデータをクエリし、Pandas DataFrameに変換しています。ただし、このデータフレームの最後の列には、その中に値の辞書(またはリスト?)があります。DataFrameは次のようになります。 [1] df Station ID Pollutants 8809 {"a": "46", "b": "3", "c": "12"} 8810 {"a": "36", "b": "5", "c": "8"} 8811 {"b": "2", "c": "7"} 8812 {"c": "11"} 8813 {"a": "82", "c": "15"} この列を個別の列に分割して、DataFrameが次のようになるようにする必要があります。 [2] df2 Station ID a b c 8809 46 3 12 8810 36 5 8 …

2
Pandas MultiIndex DataFrameの行を選択する
の行を選択/フィルタリングする最も一般的なパンダの方法は何ですか インデックスがMultiIndexでデータフレームのは何ですか? 単一の値/ラベルに基づくスライス 1つ以上のレベルの複数のラベルに基づくスライス ブール条件と式でのフィルタリング どの方法がどのような状況で適用可能か 単純化の前提: 入力データフレームに重複するインデックスキーがありません 下の入力データフレームには2つのレベルしかありません。(ここに示されているほとんどのソリューションは、Nレベルに一般化されています) 入力例: mux = pd.MultiIndex.from_arrays([ list('aaaabbbbbccddddd'), list('tuvwtuvwtuvwtuvw') ], names=['one', 'two']) df = pd.DataFrame({'col': np.arange(len(mux))}, mux) col one two a t 0 u 1 v 2 w 3 b t 4 u 5 v 6 w 7 t 8 c u 9 v …

7
Pandas dataframe fillna()一部の列のみが配置されている
列の一部のサブセットについてのみ、Pandasデータフレームの値を0で埋めようとしています。 私がする時: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df 出力: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 8.0 a b c 0 1.0 4.0 0.0 1 2.0 5.0 0.0 2 3.0 0.0 7.0 …
144 python  pandas  dataframe 


8
各グループの最初の行を選択するにはどうすればよいですか?
次のように生成されたDataFrameがあります。 df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 結果は次のようになります。 +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | 2| cat56| 39.6| | 2| …


14
列のNA値の数を決定する
NAデータフレーム列の値の数を数えたい。私のデータフレームが呼び出されdf、検討している列の名前がそうだとしますcol。私が思いついた方法は次のとおりです: sapply(df$col, function(x) sum(length(which(is.na(x))))) これはこれを行うための良い/最も効率的な方法ですか?
142 r  dataframe 

8
Pandas DataFrameインデックスの名前を変更
ヘッダーのないcsvファイルに、DateTimeインデックスを付けました。インデックスと列名の名前を変更したいのですが、df.rename()を使用すると、列名のみが名前変更されます。バグ?バージョン0.12.0を使用しています In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667 In [4]: df.rename(index={0:'Date'}, columns={1:'SM'}, inplace=True) In [5]: df.head() Out[5]: SM 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667
141 python  pandas  dataframe 

9
pandas DataFrameの前の値でNaNを置き換える方法は?
いくつかNaNのs を持つDataFrameがあるとします。 >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 私がする必要があるのは、すべてNaNをそのNaN上の同じ列の最初の非値で置き換えることです。最初の行にはが含まれないことが想定されていNaNます。したがって、前の例の結果は次のようになります 0 1 2 0 1 2 3 1 4 2 3 2 4 …

3
Rでdata.frameを保存する方法は?
Rでそれほど大きくないdata.frameを作成しましたが、ビルドにかなり時間がかかります。それをファイルとして保存したいのですが、Rで再び開くことができますか?
137 r  dataframe 

2
Spark DataFrameに定数列を追加するにはどうすればよいですか?
DataFrame任意の値を持つ列を追加します(各行で同じです)。withColumn次のように使用するとエラーが発生します。 dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, name=u'Bob', age2=7)] 1167 """ -> 1168 return self.select('*', col.alias(colName)) 1169 1170 @ignore_unicode_prefix AttributeError: 'int' object …

7
名前に特定の文字列を含む列を検索する
列名を含むデータフレームがあり、特定の文字列を含むが、完全に一致しないものを見つけたいのですが。私が探してる'spike'ような列名で'spike-2'、'hey spike'、'spiked-in'('spike'一部は常に連続しています)。 列名が文字列または変数として返されるようにしたいので、後で、df['name']またはdf[name]通常どおりに列にアクセスします。私はこれを行う方法を見つけようとしましたが、役に立ちませんでした。任意のヒント?

5
パンダのデータフレームは各グループの最初の行を取得します
DataFrame次のようなパンダがいます。 df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) これを["id"、 "value"]でグループ化し、各グループの最初の行を取得します。 id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 third 7 3 fourth 8 3 fifth 9 4 second 10 4 fifth 11 …
137 python  pandas  dataframe 

6
sklearnによるパンダデータフレーム列のスケーリング
混合型の列を持つpandasデータフレームがあり、sklearnのmin_max_scalerをいくつかの列に適用したいと思います。理想的には、これらの変換を適切に実行したいのですが、その方法をまだ理解していません。機能する次のコードを作成しました。 import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.