プログラミング dataframe

15

私はちょうどの違いは何か思ったんだけどRDDとDataFrame （スパーク2.0.0 DATAFRAMEがための単なるタイプの別名であるDataset[Row]） Apacheのスパークでは？片方をもう片方に変換できますか？

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

9

Python pandasでインデックス列名を取得するにはどうすればよいですか？次にデータフレームの例を示します。 Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 私がやろうとしているのは、データフレームインデックスのタイトルを取得/設定することです。これが私が試したものです： import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 誰でもこれを行う方法を知っていますか？

254 python pandas dataframe columnname

15

データフレーム文字列の列を複数の列に分割する

次の形式のデータを取得したい before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2')) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 そして、split()上から列 " type" を使用して、次のようなものを取得します。 attr type_1 type_2 1 1 foo bar 2 30 foo bar_2 3 4 foo bar 4 6 foo bar_2 何らかの形でapply機能するという信じられないほど複雑なことを思いつきましたが、それを誤解してしまいました。最善の方法になるには複雑すぎるように見えました。strsplit以下のように使用できますが、それをデータフレームの2列に戻す方法が不明です。 > strsplit(as.character(before$type),'_and_') [[1]] [1] "foo" …

245 r string dataframe split r-faq

6

複数の列を参照する私のパンダの「適用」機能が機能しないのはなぜですか？[閉まっている]

閉まっている。この質問は再現性がないか、タイプミスが原因です。現在、回答を受け付けていません。この質問を改善してみませんか？Stack Overflowのトピックとなるように質問を更新します。昨年休業。この質問を改善する次のデータフレームで複数の列を使用すると、パンダの適用機能に問題があります df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) そして次の機能 def my_test(a, b): return a % b 私がこの関数を適用しようとすると： df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) エラーメッセージが表示されます。 NameError: ("global name 'a' is not defined", u'occurred at index 0') このメッセージを理解できません。名前を正しく定義しました。 …

239 python python-2.7 pandas dataframe apply

13

列の異なるセットがある場合、2つのデータフレームを行ごとに結合（rbind）

同じ列のセットを持たない2つのデータフレームを行バインドすることは可能ですか？バインド後に一致しない列を保持したいと考えています。

232 r dataframe r-faq

12

パンダは他のデータフレームにない行を取得します

いくつかの行が共通する2つのパンダデータフレームがあります。 dataframe2がdataframe1のサブセットであるとします。 dataframe2にないdataframe1の行を取得するにはどうすればよいですか？ df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

229 python pandas dataframe

19

パンダデータフレームの列を正規化する

各列の値の範囲が異なるパンダのデータフレームがあります。例えば： df： A B C 1000 10 0.5 765 5 0.35 800 7 0.09 各データが0と1の間であるこのデータフレームの列をどのように正規化できるか考えていますか？私の望ましい出力は： A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)

227 python pandas dataframe normalize

6

Pythonパンダの列名から列インデックスを取得する

Rでは、実行できる列の名前に基づいて列インデックスを取得する必要がある場合 idx <- which(names(my_data)==my_colum_name) パンダのデータフレームで同じことをする方法はありますか？

220 python pandas dataframe indexing

8

パンダはNaNを空白/空の文字列に置き換えます

以下に示すようなPandas Dataframeがあります。 1 2 3 0 a NaN read 1 b l unread 2 c NaN read 空の文字列を持つNaN値を削除して、次のようにします。 1 2 3 0 a "" read 1 b l unread 2 c "" read

217 python pandas dataframe nan

8

行ごとに繰り返しながらパンダのデータフレームを更新する

私はこのようなパンダデータフレームを持っています（かなり大きなものです） date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 次に、行ごとに繰り返し処理を行い、各行を進むと、各行の値がifor いくつかの条件に応じて変化する可能性があるため、別のデータフレームを検索する必要があります。繰り返しながら、これをどのように更新しますか？それらのどれもうまくいかなかったいくつかのことを試しました。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

213 python pandas updates dataframe

7

パンダでの結合とマージの違いは何ですか？

次のような2つのデータフレームがあるとします。 left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) それらをマージしたいので、私は次のようなことを試みます： pd.merge(left, right, left_on='key1', right_on='key2') そして私は幸せです key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 しかし、私は結合方法を使用しようとしていますが、これはかなり似ていると信じていました。 left.join(right, on=['key1', 'key2']) そして私はこれを手に入れます： //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: 407 if …

208 python pandas dataframe join

7

パンダのグループ別と合計

私はこのデータフレームを使用しています。 Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

206 python pandas dataframe group-by aggregate

13

Spark Dataframeで列のコンテンツ全体を表示するにはどうすればよいですか？

Spark-csvを使用してデータをDataFrameにロードしています。簡単なクエリを実行してコンテンツを表示したい： val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() colは切り捨てられているようです： scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

201 apache-spark dataframe spark-csv output-formatting

20

パンダのデータフレーム文字列エントリを分割（分解）して行を分離する

pandas dataframeテキスト文字列の1つの列にカンマ区切りの値が含まれているがあります。各CSVフィールドを分割し、エントリごとに新しい行を作成します（CSVはクリーンで、 '、'でのみ分割する必要があると想定しています）。たとえば、次のaようになりbます。 In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 これまでにさまざまな簡単な関数を試しましたが、この.applyメソッドを軸で使用すると、戻り値として1行しか受け入れられないようで.transform、作業できません。どんな提案も大歓迎です！データの例： from pandas import DataFrame import numpy as np a …

200 python pandas numpy dataframe

17

Pandasデータフレームの外れ値を検出して除外する

列が少ないpandasデータフレームがあります。これで、特定の行が特定の列値に基づく外れ値であることがわかりました。例えば列「Vol」にはすべての値が12xxあり、1つの値は4000（外れ値）です。次にVol、このような列を持つ行を除外します。したがって、基本的には、特定の列の値が平均から3標準偏差以内にあるすべての行を選択するように、データフレームにフィルターをかける必要があります。これを達成するためのエレガントな方法は何ですか？

197 python pandas filtering dataframe outliers

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」