いくつかのハードウェアでクラスタを構築するために出費する前に、Sparkを試すためのVMセットの設定に取り組んでいます。簡単な説明:私は応用機械学習のバックグラウンドを持つ学者であり、データサイエンスでは仕事がやや終了しました。私はコンピューティングにツールを使用していますが、それらを設定する必要はほとんどありません。
3つのVM(1つのマスター、2つのスレーブ)を作成し、Sparkを正常にインストールしました。すべてが正常に機能しているようです。私の問題は、クラスター上のマシンで実行されていないブラウザーから接続できるJupyterサーバーを作成することです。
Jupyter Notebookを正常にインストールしました...実行されます。Sparkでリモートサーバーに接続する新しいIPythonプロファイルを追加しました。
今問題
コマンド
$ ipython --profile=pyspark
正常に動作し、スパーククラスターに接続します。しかしながら、
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
デフォルトでは、default
プロファイルではなくpyspark
プロファイルになります。
私のノートブック構成pyspark
は:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
?問題は引数の順序だけにあるのかもしれません。