.csvファイルをpysparkデータフレームにインポートするにはどうすればよいですか?Pandasでcsvファイルを読み取ってから、createDataFrameを使用してSparkデータフレームに変換しようとしましたが、まだエラーが表示されています。誰かがこれを案内してくれますか?また、xlsxファイルをインポートする方法を教えてください。csvコンテンツをpandasデータフレームにインポートしてから、sparkデータフレームに変換しようとしていますが、エラーが表示されます。
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
私のコードは:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)