データサイエンス pyspark

3

私は10個のデータフレーム持っているpyspark.sql.dataframe.DataFrameから取得した、randomSplitと(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)今私は9に参加したいtd、私はそれを行うべきか、単一のデータフレームにS」を？私はすでにを試しましたunionAllが、この関数は2つの引数のみを受け入れます。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 3つ以上のデータフレームを行ごとに結合する方法はありますか？これを行う目的はCrossValidator、PySpark メソッドを使用せずに手動で10倍のクロス検証を実行することです。したがって、9をトレーニングに、1をテストデータに、それから他の組み合わせで繰り返します。

21 python apache-spark cross-validation pyspark

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

CSVファイルの内容をpysparkデータフレームにインポートする

.csvファイルをpysparkデータフレームにインポートするにはどうすればよいですか？Pandasでcsvファイルを読み取ってから、createDataFrameを使用してSparkデータフレームに変換しようとしましたが、まだエラーが表示されています。誰かがこれを案内してくれますか？また、xlsxファイルをインポートする方法を教えてください。csvコンテンツをpandasデータフレームにインポートしてから、sparkデータフレームに変換しようとしていますが、エラーが表示されます。 "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 私のコードは： from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sqlc=SQLContext(sc) df=pd.read_csv(r'D:\BestBuy\train.csv') sdf=sqlc.createDataFrame(df)

12 pyspark

3

SparkでのIPython / Jupyterの問題（認識されないエイリアス）

いくつかのハードウェアでクラスタを構築するために出費する前に、Sparkを試すためのVMセットの設定に取り組んでいます。簡単な説明：私は応用機械学習のバックグラウンドを持つ学者であり、データサイエンスでは仕事がやや終了しました。私はコンピューティングにツールを使用していますが、それらを設定する必要はほとんどありません。 3つのVM（1つのマスター、2つのスレーブ）を作成し、Sparkを正常にインストールしました。すべてが正常に機能しているようです。私の問題は、クラスター上のマシンで実行されていないブラウザーから接続できるJupyterサーバーを作成することです。 Jupyter Notebookを正常にインストールしました...実行されます。Sparkでリモートサーバーに接続する新しいIPythonプロファイルを追加しました。今問題コマンド $ ipython --profile=pyspark 正常に動作し、スパーククラスターに接続します。しかしながら、 $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. デフォルトでは、defaultプロファイルではなくpysparkプロファイルになります。私のノートブック構成pysparkは： c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

11 python apache-spark pyspark ipython

2

Pysparkでカテゴリデータを数値データに変換する方法

私はIpythonノートブックを使用してpysparkアプリケーションを操作しています。収入が5万人の範囲に収まるかそれ以上かを判断するための多数のカテゴリ列を含むCSVファイルがあります。すべての入力を使用して分類アルゴリズムを実行し、収入の範囲を決定したいと思います。マップされた変数に変数のディクショナリーを作成し、マップ関数を使用して変数を処理する数値にマップする必要があります。基本的に、モデルの実装に取り掛かれるように、データセットは数値形式にする必要があります。データセットには、教育、婚姻状況、労働者階級などのカテゴリ列があります。pysparkで数値列に変換する方法を誰かに教えてもらえますか？ workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ワーククラスのキーと値のペアを含むサンプルディクショナリを作成しました。しかし、これをマップ関数で使用して、CSVファイルのカテゴリデータを対応する値に置き換える方法がわかりません。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) これは、カテゴリデータを数値データに変換するために通常のpythonで記述したコードです。正常に動作します。スパークのコンテキストで変換を実行したい。また、データソースには9つのカテゴリ列があります。辞書の更新プロセスを自動化して9列すべてにKVペアを設定する方法はありますか？

11 python apache-spark categorical-data pyspark

1

Spark ALS：新規ユーザーに推奨

質問 SparkでトレーニングされたALSモデルで新しいユーザーの評価を予測するにはどうすればよいですか？（新規=トレーニング時間中には表示されません）問題私はここで公式のSpark ALSチュートリアルに従っています： http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html まともなMSEで良いレコメンダーを構築できますが、新しいデータをモデルに入力する方法に苦労しています。このチュートリアルでは、トレーニング前に最初のユーザーの評価を変更していますが、これは実際にはハックです。彼らは次のヒントを与えます： 9.2。行列係数の増加：このチュートリアルでは、トレーニングセットに評価を追加します。推奨事項を取得するためのより良い方法は、最初に行列因数分解モデルをトレーニングしてから、評価を使用してモデルを拡張することです。これが面白そうに思える場合は、MatrixFactorizationModelの実装を確認し、新しいユーザーと新しい映画のモデルを更新する方法を確認できます。ただし、この実装は私にはまったく役立ちません。理想的には、私は次のようなものを探しています： predictions = model.predictAllNew(newinput) しかし、そのような方法は存在しません。元のRDDを変更することもできますが、モデルを再トレーニングする必要があるため、それも理想的なソリューションではありません。きっともっとエレガントな方法があるに違いない？私が今いるところ：新しいベクトルの潜在的な表現を見つける必要があると思います。元の論文によると、次のように計算できます。バツあなた= （YTCあなたY+ λのI）− 1YTCあなたp （u ）バツあなた=（YTCあなたY+λ私）−1YTCあなたp（あなた）X_u = (Y^T C^u Y + \lambda I)^{-1} Y^T C^u p(u) CあなたCあなたC^u 私の現在の試み： V = model.productFeatures().map(lambda x: (x[1])).collect() #product latent matrix Y Cui = alpha * np.abs(newinput) Cui = …

10 apache-spark recommender-system pyspark

1

Spark、単一のRDDを2つに最適に分割

特定のパラメーターに従ってグループに分割する必要がある大きなデータセットがあります。ジョブをできるだけ効率的に処理したい。そうするための2つの方法を想像することができますオプション1-元のRDDからマップを作成してフィルターする def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() オプション2-元のRDDを直接フィルターする def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = rddIn.filter(customFilter).cache() fistメソッドは、元のデータセットのすべてのレコードを3回テストする必要がありますが、2番目は通常の状況では2回のみ行う必要がありますが、sparkはシーンのグラフ作成の背後でいくらか実行するので、効果的に同じ方法で行われます。私の質問は次のとおりです：a。）1つの方法が他の方法より効率的であるか、またはスパークグラフの構築によってそれらが同等になるかb。）この分割を単一のパスで実行することは可能ですか

10 apache-spark pyspark

3

pysparkのRDDのキャッシュはいつ期限切れになりますか？

.cache()データセットの永続的なキャッシュにRDD を使用していますが、このキャッシュがいつ期限切れになるのか心配です。 dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

4

Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法

Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか？環境変数のパス：C：/Users/Name/Spark-1.4; C：/Users/Name/Spark-1.4/bin その後、cmdプロンプトで：spark-submit script.py

8 python apache-spark pyspark ipython

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

3

Sparkのヒープサイズを設定または取得する方法（Pythonノートブック経由）

Macbook ProでIPython NotebookのSpark（1.5.1）を使用しています。SparkとAnacondaをインストールした後、ターミナルからIPythonを起動しますIPYTHON_OPTS="notebook" pyspark。これにより、すべてのIPythonノートブックを一覧表示するWebページが開きます。それらの1つを選択して、2番目のWebページで開くことができます。SparkContext（sc）はすでに使用可能で、ノートブックの最初のコマンドはでhelp(sc)、正常に実行されます。私が抱えている問題は、対処方法がわからないJavaヒープスペースエラーが発生することです。現在のJavaヒープ設定を表示する方法と、セットアップのコンテキスト内でそれを増やす方法次のエラーメッセージが表示されます。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 19 in stage 247.0 failed 1 times, most recent failure: Lost task 19.0 in stage 247.0 (TID 953, localhost): java.lang.OutOfMemoryError: Java heap space

7 apache-spark pyspark ipython anaconda

1

Apache Sparkを使用してMLを行う。シリアル化エラーが発生し続ける

そのため、感情分析を行うためにSparkを使用しています。Pythonオブジェクトを渡すために使用している（おそらく）シリアライザでエラーが発生し続けています。 PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in dump_stream self.serializer.dump_stream(self._batched(iterator), stream) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 123, in dump_stream for obj in iterator: File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 180, in _batched for item …

7 apache-spark pyspark sentiment-analysis

タグ付けされた質問 「pyspark」

タグ付けされた質問「pyspark」