Apache Spark:Python 3でpysparkを使用する方法


91

GH開発マスターからSpark 1.4をビルドしましたが、ビルドは問題なく完了しました。しかし、私が実行するbin/pysparkと、Python 2.7.9バージョンが取得されます。どうすれば変更できますか?


7
これを行う方法を探している人のために:このPYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark場合、IPython 3ノートブックを実行します。
tchakravarty

回答:


141

環境変数を設定するだけです:

export PYSPARK_PYTHON=python3

これを永続的な変更にしたい場合は、この行をpysparkスクリプトに追加します。


環境変数は/ etc / profileで編集できます。プロファイルを保存した後、「source / etc / profile」を実行することを忘れないでください。そうすることで、変更をすぐに実行できます。
物理学者2016

1
明らかに、export PYSPARK_PYTHON=python3.5Python 3.5 に使用
フィティシスト

4
これは、これを追加する方が良いです$SPARK_HOME/conf/spark-env.shので、spark-submit同様に同じインタプリタを使用しています。
flow2k

@ flow2kの方が良い考えです。Tnx
mohammad RaoofNia

32
PYSPARK_PYTHON=python3 
./bin/pyspark

IPython Notebookで実行する場合は、次のように記述します。

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

python3アクセスできない場合は、代わりにパスを渡す必要があります。

ことに注意してください(1.4.1のように)現在のドキュメントはに古い指示を持っています。幸い、パッチが適用されています。


1
IPython Notebookに対するコマンドは正しくないと思います。PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = ipython3 PYSPARK_DRIVER_PYTHON_OPTS = "notebook" ./bin/pyspark
SpiderRico

@ChrisNielsenターミナルで。
Piotr Migdal 2017年

@ChrisNielsen LinuxまたはOS Xでは、ターミナル/コンソールです。私はそれがWindowsでどのように機能するかわかりません(Windowsの場合、DockerコンテナーでのみSparkを使用しました)。
Piotr Migdal 2017年

@SpiderRicoこれらは私のMacでは動作しないようです。Jupyter NotebookがSparkで機能するようにするには、次を使用します。PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = jupyter PYSPARK_DRIVER_PYTHON_OPTS = "notebook" ./bin/pyspark
ハンクチャン

9

1、プロフィールを編集:vim ~/.profile

2、コードをファイルに追加します。 export PYSPARK_PYTHON=python3

3、コマンドを実行: source ~/.profile

4、 ./bin/pyspark


4

ファイルを確認してください。シバン行はおそらく、最初の互換性のある実行可能ファイルのパスを検索する「env」バイナリをポイントしています。

pythonをpython3に変更できます。ハードコードされたpython3バイナリを直接使用するように環境を変更します。または、python3を使用してバイナリを直接実行し、shebang行を省略します。


1
ええ、ファイルを調べると役に立ちました。PYSPARK_PYTHON環境変数を設定する必要があります。
tchakravarty

4

Jupyter Notebookの場合、spark-env.shコマンドラインから以下のようにファイルを編集します

$ vi $SPARK_HOME/conf/spark-env.sh

ファイルの下部に移動し、これらの行をコピーして貼り付けます

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

次に、次のコマンドを実行してノートブックでpysparkを開始します

$ pyspark
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.