（PySparkを使用して）Spark DataFrameに新しい列を追加するにはどうすればよいですか？

128

Spark DataFrame（PySpark 1.5.1を使用）があり、新しい列を追加したいと思います。

私は成功せずに次のことを試しました：

type(randomed_hours) # => list

# Create in Python and transform to RDD

new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

spark_new_col = sqlContext.createDataFrame(new_col)

my_df_spark.withColumn("hours", spark_new_col["new_col"])

これを使用してもエラーが発生しました：

my_df_spark.withColumn("hours",  sc.parallelize(randomed_hours))

では、PySparkを使用して既存のDataFrameに新しい列（Pythonベクターに基づく）を追加するにはどうすればよいですか？

— ボリス
ソース

207

DataFrameSparkの任意の列をに追加することはできません。新しい列は、リテラルを使用することによってのみ作成できます（他のリテラルタイプについては、Spark DataFrameに定数列を追加する方法で説明しています）。

from pyspark.sql.functions import lit

df = sqlContext.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))

df_with_x4 = df.withColumn("x4", lit(0))
df_with_x4.show()

## +---+---+-----+---+
## | x1| x2|   x3| x4|
## +---+---+-----+---+
## |  1|  a| 23.0|  0|
## |  3|  B|-23.0|  0|
## +---+---+-----+---+

既存の列を変換する：

from pyspark.sql.functions import exp

df_with_x5 = df_with_x4.withColumn("x5", exp("x3"))
df_with_x5.show()

## +---+---+-----+---+--------------------+
## | x1| x2|   x3| x4|                  x5|
## +---+---+-----+---+--------------------+
## |  1|  a| 23.0|  0| 9.744803446248903E9|
## |  3|  B|-23.0|  0|1.026187963170189...|
## +---+---+-----+---+--------------------+

使用して含まれるjoin：

from pyspark.sql.functions import exp

lookup = sqlContext.createDataFrame([(1, "foo"), (2, "bar")], ("k", "v"))
df_with_x6 = (df_with_x5
    .join(lookup, col("x1") == col("k"), "leftouter")
    .drop("k")
    .withColumnRenamed("v", "x6"))

## +---+---+-----+---+--------------------+----+
## | x1| x2|   x3| x4|                  x5|  x6|
## +---+---+-----+---+--------------------+----+
## |  1|  a| 23.0|  0| 9.744803446248903E9| foo|
## |  3|  B|-23.0|  0|1.026187963170189...|null|
## +---+---+-----+---+--------------------+----+

または関数/ udfで生成されます：

from pyspark.sql.functions import rand

df_with_x7 = df_with_x6.withColumn("x7", rand())
df_with_x7.show()

## +---+---+-----+---+--------------------+----+-------------------+
## | x1| x2|   x3| x4|                  x5|  x6|                 x7|
## +---+---+-----+---+--------------------+----+-------------------+
## |  1|  a| 23.0|  0| 9.744803446248903E9| foo|0.41930610446846617|
## |  3|  B|-23.0|  0|1.026187963170189...|null|0.37801881545497873|
## +---+---+-----+---+--------------------+----+-------------------+

pyspark.sql.functions通常、Catalystの式にマップされる、パフォーマンス面での組み込み関数（）は、Pythonのユーザー定義関数よりも優先されます。

任意のRDDのコンテンツを列として追加したい場合は、

既存のデータフレームに行番号を追加する
zipWithIndexRDDを呼び出してデータフレームに変換する
インデックスを結合キーとして使用して両方を結合する

— zero323
ソース

1

「リテラルを使用することによってのみ、新しい列を作成できます」このコンテキストでリテラルとは正確にはどういう意味ですか？

— timbram 2018

Sparkのドキュメントはすばらしいです。df.withColumnspark.apache.org

— Steven Black

10

Sparkのドキュメントは「素晴らしい」だけであり、鋭い読者のための練習に至るまで、非常に多くの使用法を残しています。Spark（およびPyspark）は、データ構造の真の動物園をカバーし、データ構造間での変換方法に関する指示はほとんどまたはまったくありません。適例：ちょうどこのような質問の急増。

— シャドウトーカー

62

UDFを使用して列を追加するには：

df = sqlContext.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))

from pyspark.sql.functions import udf
from pyspark.sql.types import *

def valueToCategory(value):
   if   value == 1: return 'cat1'
   elif value == 2: return 'cat2'
   ...
   else: return 'n/a'

# NOTE: it seems that calls to udf() must be after SparkContext() is called
udfValueToCategory = udf(valueToCategory, StringType())
df_with_cat = df.withColumn("category", udfValueToCategory("x1"))
df_with_cat.show()

## +---+---+-----+---------+
## | x1| x2|   x3| category|
## +---+---+-----+---------+
## |  1|  a| 23.0|     cat1|
## |  3|  B|-23.0|      n/a|
## +---+---+-----+---------+

— マーク・ライコク
ソース

30

用スパーク2.0

# assumes schema has 'age' column 
df.select('*', (df.age + 10).alias('agePlusTen'))

— ルークW
ソース

1

df.select（ '*'、（df.age + 10）.alias（ 'agePlusTen'））である必要があります

— フランクB.

1

おかげで、あなたが入力した場合df = df.select('*', (df.age + 10).alias('agePlusTen'))、あなたが効果的にしている任意の列を追加し、それは標準的な方法だパンダで、スパークでこれを行うと何か間違っているがありますしない限り、私たちは、上記の、不可能であったと警告zero323 @として...

— カルダモン

pySparkのこのバージョンはありますか？

— Tagar

@Tagar上記のスニペットはpythonです。

— ルークW

1

@GeoffreyAnderson、df.select('*', df.age + 10, df.age + 20)

— Mark Rajcok

2

pySparkに新しい列を追加する方法はいくつかあります。

まず、単純なDataFrameを作成します。

date = [27, 28, 29, None, 30, 31]
df = spark.createDataFrame(date, IntegerType())

次に、列の値を2倍にして、新しい列に格納してみましょう。同じを達成するためのPFBのいくつかの異なるアプローチ。

# Approach - 1 : using withColumn function
df.withColumn("double", df.value * 2).show()

# Approach - 2 : using select with alias function.
df.select("*", (df.value * 2).alias("double")).show()

# Approach - 3 : using selectExpr function with as clause.
df.selectExpr("*", "value * 2 as double").show()

# Approach - 4 : Using as clause in SQL statement.
df.createTempView("temp")
spark.sql("select *, value * 2 as double from temp").show()

Spark DataFrame関数のその他の例と説明については、私のブログにアクセスしてください。

これがお役に立てば幸いです。

— Neeraj Bhadani
ソース

0

をudf追加するときに、新しいを定義できますcolumn_name。

u_f = F.udf(lambda :yourstring,StringType())
a.select(u_f().alias('column_name')

— アレン211
ソース

0

from pyspark.sql.functions import udf
from pyspark.sql.types import *
func_name = udf(
    lambda val: val, # do sth to val
    StringType()
)
df.withColumn('new_col', func_name(df.old_col))

— DeFOX
ソース

電話する必要がありますStringType()。

— gberger

0

非常によく似たユースケースの一般化された例を提供したいと思います。

使用例：私は次のもので構成されるcsvを持っています：

First|Third|Fifth
data|data|data
data|data|data
...billion more lines

いくつかの変換を実行する必要があり、最終的なcsvは次のようになる必要があります

First|Second|Third|Fourth|Fifth
data|null|data|null|data
data|null|data|null|data
...billion more lines

これは一部のモデルで定義されているスキーマであり、最終的なデータをSQL一括挿入などと相互運用できるようにする必要があるため、これを行う必要があります。

そう：

1）spark.readを使用して元のcsvを読み取り、「df」と呼びます。

2）データに何かをします。

3）次のスクリプトを使用してnull列を追加します。

outcols = []
for column in MY_COLUMN_LIST:
    if column in df.columns:
        outcols.append(column)
    else:
        outcols.append(lit(None).cast(StringType()).alias('{0}'.format(column)))

df = df.select(outcols)

このようにして、csvを読み込んだ後にスキーマを構造化できます（多くのテーブルでこれを行う必要がある場合は、列の並べ替えにも機能します）。

— 血の根
ソース

0

列を追加する最も簡単な方法は、「withColumn」を使用することです。データフレームはsqlContextを使用して作成されるため、スキーマを指定する必要があります。デフォルトでは、データセットで使用できます。スキーマを指定すると、毎回変更するときにワークロードが面倒になります。

以下は、検討できる例です。

from pyspark.sql import SQLContext
from pyspark.sql.types import *
sqlContext = SQLContext(sc) # SparkContext will be sc by default 

# Read the dataset of your choice (Already loaded with schema)
Data = sqlContext.read.csv("/path", header = True/False, schema = "infer", sep = "delimiter")

# For instance the data has 30 columns from col1, col2, ... col30. If you want to add a 31st column, you can do so by the following:
Data = Data.withColumn("col31", "Code goes here")

# Check the change 
Data.printSchema()

— スワミナタン・ミーナクシスンダラム
ソース

0

以下の手順で、DataFrameに列を直接追加できます。

from pyspark.sql.functions import when
df = spark.createDataFrame([["amit", 30], ["rohit", 45], ["sameer", 50]], ["name", "age"])
df = df.withColumn("profile", when(df.age >= 40, "Senior").otherwise("Executive"))
df.show()

— ヨゲシュ
ソース