Macbook ProでIPython NotebookのSpark(1.5.1)を使用しています。SparkとAnacondaをインストールした後、ターミナルからIPythonを起動しますIPYTHON_OPTS="notebook" pyspark
。これにより、すべてのIPythonノートブックを一覧表示するWebページが開きます。それらの1つを選択して、2番目のWebページで開くことができます。SparkContext(sc)はすでに使用可能で、ノートブックの最初のコマンドはでhelp(sc)
、正常に実行されます。私が抱えている問題は、対処方法がわからないJavaヒープスペースエラーが発生することです。現在のJavaヒープ設定を表示する方法と、セットアップのコンテキスト内でそれを増やす方法 次のエラーメッセージが表示されます。
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 19 in stage 247.0 failed 1 times, most recent failure: Lost task 19.0 in stage 247.0 (TID 953, localhost): java.lang.OutOfMemoryError: Java heap space