Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法


8

Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか?

環境変数のパス:C:/Users/Name/Spark-1.4; C:/Users/Name/Spark-1.4/bin

その後、cmdプロンプトで:spark-submit script.py

ここに画像の説明を入力してください


回答:


3

私はSparkをかなり初めて使用し、Windows 10および7でIPythonと統合する方法を理解しました。最初に、PythonおよびSparkの環境変数を確認します。SPARK_HOME:C:\ spark-1.6.0-bin-hadoop2.6 \ Enthought Canopyを使用しているため、Pythonはすでにシステムパスに統合されています。次に、PythonまたはIPythonを起動し、次のコードを使用します。エラーが発生した場合は、「spark_home」の結果を確認してください。それ以外の場合は、問題なく実行されます。

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

IPythonのpySpark



1

ジョニーボーイカーティスの答えは私のために働きます。Python 3を使用している場合は、以下のコードを使用します。彼のコードはpython 3では機能しません。私は彼のコードの最後の行のみを編集しています。

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))

「user2543622」から提供されたコードを正常に使用していて、最近、次のエラーメッセージで問題が発生しました。何が悪かったのか知っていますか?ありがとう。例外:Javaゲートウェイプロセスは、ドライバーにポート番号を送信する前に終了しました
user27155

0

最後に、問題を解決しました。pysparkの場所をPATH変数に、py4j-0.8.2.1-src.zipの場所をPYTHONPATH変数に設定する必要がありました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.