2つのdataFrameを検討してください。
>>> aDF.show()
+---+----+
| id|datA|
+---+----+
| 1| a1|
| 2| a2|
| 3| a3|
+---+----+
そして
>>> bDF.show()
+---+----+
| id|datB|
+---+----+
| 2| b2|
| 3| b3|
| 4| b4|
+---+----+
あなたが探していることを達成するために、2つの方法があります:
1.異なる接合条件。aDF.id == bDF.idと言う代わりに
aDF.join(bDF, aDF.id == bDF.id, "outer")
これを書いてください:
aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
| 4|null| b4|
+---+----+----+
これにより、余分なドロッププロセスが自動的に削除されます。
2.エイリアシングを使用する:これでは、B固有のIDに関連するデータが失われます。
>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()
+----+----+----+
| id|datA|datB|
+----+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
|null|null| b4|
+----+----+----+
ndf = df.drop('age')