タグ付けされた質問 「apache-spark」

Apache Sparkはオープンソースのクラスターコンピューティングシステムであり、データ分析を高速にすることを目的としています。元々はUC BerkeleyのAMPLabで開発された、実行も書き込みも高速です。

1
メールスレッドから個別のメールを抽出する
ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。 たとえば、次のメッセージについて考えてみます。 Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. ---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------ Hello Mr.X, Does the below work out. Do let us know your thoughts. Thanks, Mr.Y Sales Manager. メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。 私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。 たとえば、メールスレッドの2番目のメッセージが次のように中断した場合 ---------- Forwarded message ---------- 上記の代わりに …

2
分散PCAの仕組みを理解する
ビッグデータ分析プロジェクトの一環として、 クラウドコンピューティングシステムを使用して、一部のデータに対してPCAを実行する必要があります。 私の場合、私は仕事、特にSparkにAmazon EMRを使用しています。 「How to-Perform-PCA-in-Spark」の質問はさておき、クラウドベースのアーキテクチャでPCを計算する場合、舞台裏で物事がどのように機能するかを理解したいと思います。 たとえば、データのPCを決定する手段の1つは、特徴の共分散行列を計算することです。 たとえば、HDFSベースのアーキテクチャを使用している場合、元のデータは複数のノードに分散されており、各ノードがXレコードを受信して​​いると思います。 次に、各ノードに部分的なデータしかない場合、共分散行列はどのように計算されますか? これは単なる例です。私は、このすべての舞台裏のブードゥー教を説明する紙やドキュメントを探していますが、自分のニーズ(おそらく、Googleのスキルが低い)に対して十分なものを見つけることができませんでした。 だから私は基本的に私の質問を要約することができます\は以下でなければなりません: 1.クラウドアーキテクチャ上の分散型PCAの仕組み できれば、いくつかの学術論文またはその他の種類の説明も含みます。 2. D-PCAのSpark実装 Sparkはそれをどのように行うのですか?彼らはそれをより効率的にするために彼らのアーキテクチャに「ひねり」を持っていますか、またはRDDオブジェクトの使用はどのように効率の改善に貢献していますか?等 それに関するオンラインレッスンのプレゼンテーションも素晴らしいでしょう。 いくつかの読書資料を提供できる人には、事前に感謝します。

2
SPARK Mllib:マルチクラスロジスティック回帰、上位クラスではなくすべてのクラスの確率を取得する方法は?
LogisticRegressionWithLBFGSマルチクラス分類器のトレーニングに使用しています。 新しい目に見えないサンプルでモデルをテストするときに、すべてのクラス(最上位の候補クラスだけでなく)の確率を取得する方法はありますか? PS私は必ずしもLBFGS分類子を使用する義務があるわけではありませんが、私の問題ではロジスティック回帰を使用したいと思います。したがって、別のLR分類子タイプを使用した解決策がある場合は、それを採用します。

3
Sparkのヒープサイズを設定または取得する方法(Pythonノートブック経由)
Macbook ProでIPython NotebookのSpark(1.5.1)を使用しています。SparkとAnacondaをインストールした後、ターミナルからIPythonを起動しますIPYTHON_OPTS="notebook" pyspark。これにより、すべてのIPythonノートブックを一覧表示するWebページが開きます。それらの1つを選択して、2番目のWebページで開くことができます。SparkContext(sc)はすでに使用可能で、ノートブックの最初のコマンドはでhelp(sc)、正常に実行されます。私が抱えている問題は、対処方法がわからないJavaヒープスペースエラーが発生することです。現在のJavaヒープ設定を表示する方法と、セットアップのコンテキスト内でそれを増やす方法 次のエラーメッセージが表示されます。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 19 in stage 247.0 failed 1 times, most recent failure: Lost task 19.0 in stage 247.0 (TID 953, localhost): java.lang.OutOfMemoryError: Java heap space

1
SparkとRのロジスティック回帰が同じデータに対して異なるモデルを返すのはなぜですか?
R(glm)とSpark(LogisticRegressionWithLBFGS)のロジスティック回帰モデルを390 obsのデータセットで比較しました。14変数の。 結果は切片と重みで完全に異なります。これを説明するには? 以下はSpark(LogisticRegressionWithLBFGS)の結果です。 model.intercept : 1.119830027739959 model.weights : GEST 0.30798496002530473 DILATE 0.28121771009716895 EFFACE 0.01780105068588628 CONSIS -0.22782058111362183 CONTR -0.8094592237248102 MEMBRAN-1.788173534959893 AGE -0.05285751197750732 STRAT -1.6650305527536942 GRAVID 0.38324952943210994 PARIT -0.9463956993328745 DIAB 0.18151162744507293 TRANSF -0.7413500749909346 GEMEL 1.5953124037323745 Rの結果は次のとおりです。 Estimate Std. Error z value Pr(>|z|) (Intercept) 3.0682091 3.3944407 0.904 0.366052 GEST 0.0086545 0.1494487 0.058 …

1
Apache Sparkを使用してMLを行う。シリアル化エラーが発生し続ける
そのため、感情分析を行うためにSparkを使用しています。Pythonオブジェクトを渡すために使用している(おそらく)シリアライザでエラーが発生し続けています。 PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in dump_stream self.serializer.dump_stream(self._batched(iterator), stream) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 123, in dump_stream for obj in iterator: File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 180, in _batched for item …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.