タグ付けされた質問 「pyspark」

Spark Python API(PySpark)は、apache-sparkプログラミングモデルをPythonに公開します。

3
PySparkで複数のデータフレームを行ごとにマージする
私は10個のデータフレーム持っているpyspark.sql.dataframe.DataFrameから取得した、randomSplitと(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)今私は9に参加したいtd、私はそれを行うべきか、単一のデータフレームにS」を? 私はすでにを試しましたunionAllが、この関数は2つの引数のみを受け入れます。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 3つ以上のデータフレームを行ごとに結合する方法はありますか? これを行う目的はCrossValidator、PySpark メソッドを使用せずに手動で10倍のクロス検証を実行することです。したがって、9をトレーニングに、1をテストデータに、それから他の組み合わせで繰り返します。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
CSVファイルの内容をpysparkデータフレームにインポートする
.csvファイルをpysparkデータフレームにインポートするにはどうすればよいですか?Pandasでcsvファイルを読み取ってから、createDataFrameを使用してSparkデータフレームに変換しようとしましたが、まだエラーが表示されています。誰かがこれを案内してくれますか?また、xlsxファイルをインポートする方法を教えてください。csvコンテンツをpandasデータフレームにインポートしてから、sparkデータフレームに変換しようとしていますが、エラーが表示されます。 "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 私のコードは: from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sqlc=SQLContext(sc) df=pd.read_csv(r'D:\BestBuy\train.csv') sdf=sqlc.createDataFrame(df)
12 pyspark 

3
SparkでのIPython / Jupyterの問題(認識されないエイリアス)
いくつかのハードウェアでクラスタを構築するために出費する前に、Sparkを試すためのVMセットの設定に取り組んでいます。簡単な説明:私は応用機械学習のバックグラウンドを持つ学者であり、データサイエンスでは仕事がやや終了しました。私はコンピューティングにツールを使用していますが、それらを設定する必要はほとんどありません。 3つのVM(1つのマスター、2つのスレーブ)を作成し、Sparkを正常にインストールしました。すべてが正常に機能しているようです。私の問題は、クラスター上のマシンで実行されていないブラウザーから接続できるJupyterサーバーを作成することです。 Jupyter Notebookを正常にインストールしました...実行されます。Sparkでリモートサーバーに接続する新しいIPythonプロファイルを追加しました。 今問題 コマンド $ ipython --profile=pyspark 正常に動作し、スパーククラスターに接続します。しかしながら、 $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. デフォルトでは、defaultプロファイルではなくpysparkプロファイルになります。 私のノートブック構成pysparkは: c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

2
Pysparkでカテゴリデータを数値データに変換する方法
私はIpythonノートブックを使用してpysparkアプリケーションを操作しています。収入が5万人の範囲に収まるかそれ以上かを判断するための多数のカテゴリ列を含むCSVファイルがあります。すべての入力を使用して分類アルゴリズムを実行し、収入の範囲を決定したいと思います。マップされた変数に変数のディクショナリーを作成し、マップ関数を使用して変数を処理する数値にマップする必要があります。基本的に、モデルの実装に取り​​掛かれるように、データセットは数値形式にする必要があります。 データセットには、教育、婚姻状況、労働者階級などのカテゴリ列があります。pysparkで数値列に変換する方法を誰かに教えてもらえますか? workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ワーククラスのキーと値のペアを含むサンプルディクショナリを作成しました。しかし、これをマップ関数で使用して、CSVファイルのカテゴリデータを対応する値に置き換える方法がわかりません。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) これは、カテゴリデータを数値データに変換するために通常のpythonで記述したコードです。正常に動作します。スパークのコンテキストで変換を実行したい。また、データソースには9つのカテゴリ列があります。辞書の更新プロセスを自動化して9列すべてにKVペアを設定する方法はありますか?

1
Spark ALS:新規ユーザーに推奨
質問 SparkでトレーニングされたALSモデルで新しいユーザーの評価を予測するにはどうすればよいですか?(新規=トレーニング時間中には表示されません) 問題 私はここで公式のSpark ALSチュートリアルに従っています: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html まともなMSEで良いレコメンダーを構築できますが、新しいデータをモデルに入力する方法に苦労しています。このチュートリアルでは、トレーニング前に最初のユーザーの評価を変更していますが、これは実際にはハックです。彼らは次のヒントを与えます: 9.2。行列係数の増加: このチュートリアルでは、トレーニングセットに評価を追加します。推奨事項を取得するためのより良い方法は、最初に行列因数分解モデルをトレーニングしてから、評価を使用してモデルを拡張することです。これが面白そうに思える場合は、MatrixFactorizationModelの実装を確認し、新しいユーザーと新しい映画のモデルを更新する方法を確認できます。 ただし、この実装は私にはまったく役立ちません。理想的には、私は次のようなものを探しています: predictions = model.predictAllNew(newinput) しかし、そのような方法は存在しません。元のRDDを変更することもできますが、モデルを再トレーニングする必要があるため、それも理想的なソリューションではありません。きっともっとエレガントな方法があるに違いない? 私が今いるところ: 新しいベクトルの潜在的な表現を見つける必要があると思います。元の論文によると、次のように計算できます。 バツあなた= (YTCあなたY+ λのI)− 1YTCあなたp (u )バツあなた=(YTCあなたY+λ私)−1YTCあなたp(あなた)X_u = (Y^T C^u Y + \lambda I)^{-1} Y^T C^u p(u) CあなたCあなたC^u 私の現在の試み: V = model.productFeatures().map(lambda x: (x[1])).collect() #product latent matrix Y Cui = alpha * np.abs(newinput) Cui = …

1
Spark、単一のRDDを2つに最適に分割
特定のパラメーターに従ってグループに分割する必要がある大きなデータセットがあります。ジョブをできるだけ効率的に処理したい。そうするための2つの方法を想像することができます オプション1-元のRDDからマップを作成してフィルターする def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() オプション2-元のRDDを直接フィルターする def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = rddIn.filter(customFilter).cache() fistメソッドは、元のデータセットのすべてのレコードを3回テストする必要がありますが、2番目は通常の状況では2回のみ行う必要がありますが、sparkはシーンのグラフ作成の背後でいくらか実行するので、効果的に同じ方法で行われます。私の質問は次のとおりです:a。)1つの方法が他の方法より効率的であるか、またはスパークグラフの構築によってそれらが同等になるかb。)この分割を単一のパスで実行することは可能ですか


4
Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法
Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか? 環境変数のパス:C:/Users/Name/Spark-1.4; C:/Users/Name/Spark-1.4/bin その後、cmdプロンプトで:spark-submit script.py

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

3
Sparkのヒープサイズを設定または取得する方法(Pythonノートブック経由)
Macbook ProでIPython NotebookのSpark(1.5.1)を使用しています。SparkとAnacondaをインストールした後、ターミナルからIPythonを起動しますIPYTHON_OPTS="notebook" pyspark。これにより、すべてのIPythonノートブックを一覧表示するWebページが開きます。それらの1つを選択して、2番目のWebページで開くことができます。SparkContext(sc)はすでに使用可能で、ノートブックの最初のコマンドはでhelp(sc)、正常に実行されます。私が抱えている問題は、対処方法がわからないJavaヒープスペースエラーが発生することです。現在のJavaヒープ設定を表示する方法と、セットアップのコンテキスト内でそれを増やす方法 次のエラーメッセージが表示されます。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 19 in stage 247.0 failed 1 times, most recent failure: Lost task 19.0 in stage 247.0 (TID 953, localhost): java.lang.OutOfMemoryError: Java heap space

1
Apache Sparkを使用してMLを行う。シリアル化エラーが発生し続ける
そのため、感情分析を行うためにSparkを使用しています。Pythonオブジェクトを渡すために使用している(おそらく)シリアライザでエラーが発生し続けています。 PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in dump_stream self.serializer.dump_stream(self._batched(iterator), stream) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 123, in dump_stream for obj in iterator: File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 180, in _batched for item …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.