プログラミング pyspark-sql

13

私はパンダの背景から来ており、CSVファイルからデータフレームにデータを読み取り、次に単純なコマンドを使用して列名を便利なものに変更することに慣れています： df.columns = new_column_name_list ただし、sqlContextを使用して作成されたpysparkデータフレームでは同じことが機能しません。これを簡単に行うために私が理解できる唯一の解決策は次のとおりです。 df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema = df.schema for i,k in enumerate(oldSchema.fields): k.name = new_column_name_list[i] df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', delimiter='\t').load("data.txt", schema=oldSchema) これは基本的に変数を2回定義し、最初にスキーマを推論してから列名を変更し、更新されたスキーマでデータフレームを再度ロードします。私たちがパンダのようにこれを行うためのより良い、より効率的な方法はありますか？私のスパークバージョンは1.5.0です

201 python apache-spark pyspark pyspark-sql

9

pysparkデータフレームに個別の列値を表示する：python

パンダの代わりのpysparkデータフレームを提案してくださいdf['col'].unique()。 pysparkデータフレーム列にすべての一意の値をリストしたいと思います。 SQLタイプの方法ではありません（registertemplate、次に個別の値のSQLクエリ）。またgroupby->countDistinct、必要はありません。代わりに、その列の個別の値を確認したいと思います。

85 pyspark pyspark-sql

6

pyspark文字列を日付形式に変換します

の形式の文字列列を持つ日付pysparkデータフレームがあり、MM-dd-yyyyこれを日付列に変換しようとしています。私は試した： df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() そして、nullの文字列を取得します。誰か助けてもらえますか？

80 apache-spark pyspark apache-spark-sql pyspark-sql

タグ付けされた質問 「pyspark-sql」

タグ付けされた質問「pyspark-sql」