タグ付けされた質問 「apache-spark」

Apache SparkはScalaで記述されたオープンソースの分散データ処理エンジンであり、統一されたAPIと分散データセットをユーザーに提供します。Apache Sparkの使用例は、多くの場合、機械/深層学習、グラフ処理に関連しています。

19
Pythonシェルでのpysparkのインポート
これは回答されなかった別のフォーラムでの誰かの質問のコピーです。同じ問題があるので、ここでもう一度質問すると思います。(http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736を参照してください) 私のマシンにはSparkが正しくインストールされており、Pythonインタープリターとして./bin/pysparkを使用すると、pysparkモジュールを使用してpythonプログラムをエラーなしで実行できます。 ただし、通常のPythonシェルを実行しようとすると、pysparkモジュールをインポートしようとすると、次のエラーが発生します。 from pyspark import SparkContext そしてそれは言う "No module named pyspark". どうすれば修正できますか?Pythonがpysparkヘッダー/ライブラリ/その他を指すように設定する必要がある環境変数はありますか?Sparkのインストールが/ spark /の場合、どのpysparkパスを含める必要がありますか?または、pysparkプログラムはpysparkインタープリターからのみ実行できますか?

12
SparkでCSVファイルを読み込む
Sparkを初めて使用し、SparkでファイルからCSVデータを読み取ろうとしています。これが私がやっていることです: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() この呼び出しでファイルの最初の2列のリストが表示されると思いますが、次のエラーが発生します。 File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range 私のCSVファイルは複数の列として。


8
スパークで出力ディレクトリを上書きする方法
毎分データセットを生成するスパークストリーミングアプリケーションがあります。処理したデータの結果を保存/上書きする必要があります。 データセットorg.apache.hadoop.mapred.FileAlreadyExistsExceptionを上書きしようとすると、実行が停止します。 Sparkプロパティを設定しましたset("spark.files.overwrite","true")が、うまくいきません。 スパークからファイルを上書きまたは事前削除するにはどうすればよいですか?
107 apache-spark 

8
Spark DataFrame列をPythonリストに変換する
私は、mvvとcountの2つの列を持つデータフレームで作業します。 +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | mvv値とカウント値を含む2つのリストを取得したいと思います。何かのようなもの mvv = [1,2,3,4] count = [5,9,3,1] だから、私は次のコードを試してみました:最初の行は行のpythonリストを返すはずです。私は最初の値を見たかった: mvv_list = mvv_count_df.select('mvv').collect() firstvalue = mvv_list[0].getInt(0) しかし、2行目にエラーメッセージが表示されます。 AttributeError:getInt

4
Spark Kill Runningアプリケーション
他のアプリケーションがリソースを割り当てられないすべてのコアを占有する実行中のSparkアプリケーションがあります。 私はいくつかの簡単な調査を行い、人々はYARN killまたは/ bin / spark-classを使用してコマンドをkillすることを提案しました。しかし、私はCDHバージョンを使用していて、/ bin / spark-classもまったく存在せず、YARN killアプリケーションも機能しません。 これで誰でも私と一緒にできますか?

14
HDFSの代わりにsc.textFileにローカルファイルをロードする方法
私は素晴らしいスパークのチュートリアルに従っています だから私は46m:00sにロードしようとしていますが、README.md私がやっていることに失敗するのはこれです: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556 14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 160.2 …


5
pysparkでDataframe列をString型からDouble型に変更する方法
文字列として列を持つデータフレームがあります。PySparkで列タイプをDoubleタイプに変更したいと思いました。 以下は私がやった方法です: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 知りたいだけですが、これはロジスティック回帰を実行しているときにエラーが発生するので正しい方法ですか?これが問題の原因です。

10
値がNoneのPysparkデータフレーム列をフィルター処理する
None行の値を持つPySparkデータフレームをフィルタリングしようとしています: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 文字列値で正しくフィルタリングできます: df[df.dt_mvmt == '2016-03-31'] # some results here しかし、これは失敗します: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 しかし、各カテゴリーには確かに価値があります。どうしたの?


10
WindowsでSparkを設定する方法は?
WindowsでApache Sparkをセットアップしようとしています。 少し検索したところ、スタンドアロンモードが必要なことがわかりました。WindowsでApache sparkを実行するために、どのバイナリをダウンロードしますか?Sparkのダウンロードページに、hadoopとcdhを含むディストリビューションがあります。 私はこれについてウェブに言及していません。これへの段階的なガイドは高く評価されます。

14
Spark-アプリの送信時にエラー「構成にマスターURLを設定する必要があります」
ローカルモードで問題なく実行されるSparkアプリがありますが、Sparkクラスターに送信するときにいくつかの問題があります。 エラーメッセージは次のとおりです。 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) at org.apache.spark.scheduler.Task.run(Task.scala:89) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745) Caused by: org.apache.spark.SparkException: A master URL …



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.