タグ付けされた質問 「apache-spark」

Apache Sparkはオープンソースのクラスターコンピューティングシステムであり、データ分析を高速にすることを目的としています。元々はUC BerkeleyのAMPLabで開発された、実行も書き込みも高速です。

3
PySparkで複数のデータフレームを行ごとにマージする
私は10個のデータフレーム持っているpyspark.sql.dataframe.DataFrameから取得した、randomSplitと(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)今私は9に参加したいtd、私はそれを行うべきか、単一のデータフレームにS」を? 私はすでにを試しましたunionAllが、この関数は2つの引数のみを受け入れます。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 3つ以上のデータフレームを行ごとに結合する方法はありますか? これを行う目的はCrossValidator、PySpark メソッドを使用せずに手動で10倍のクロス検証を実行することです。したがって、9をトレーニングに、1をテストデータに、それから他の組み合わせで繰り返します。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
データフレーム列の平均を計算し、上位10%を見つける方法
私はScalaとSparkを初めて使い、野球の統計を使用した自作のエクササイズに取り組んでいます。ケースクラスを使用してRDDを作成し、データにスキーマを割り当ててから、それをDataFrameに変換して、SparkSQLを使用して特定の条件を満たす統計情報を介してプレーヤーのグループを選択できるようにします。 さらに検討したいプレーヤーのサブセットができたら、列の平均を見つけたいと思います。例:バッティング平均またはRBI。そこから、すべてのプレーヤーと比較した平均パフォーマンスに基づいて、すべてのプレーヤーをパーセンタイルグループに分割します。上位10%、下位10%、40-50% ただし、DataFrame.describe()関数を使用して、目的の列(mean、stddev、count、min、max)の概要をすべて文字列として返すことができました。ダブルスとして平均値と標準偏差を取得するより良い方法はありますか?また、プレイヤーを10パーセンタイルのグループに分割する最良の方法は何ですか? これまでのところ、パーセンタイル範囲をブックエンドし、コンパレータを介してプレイヤーをグループ化する関数を記述する値を見つけることですが、それは車輪の再発明に国境を接しているように感じます。 現在、次のインポートがあります。 import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} import org.joda.time.format.DateTimeFormat

3
pysparkデータフレーム内のすべての数値を定数値で置き換えます
「null」要素と数値要素で構成されるpysparkデータフレームを考えます。一般に、数値要素には異なる値があります。データフレームのすべての数値を定数の数値(たとえば、値1)に置き換えるにはどうすればよいですか?前もって感謝します! pysparkデータフレームの例: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ 3 & null & 1.2 & null \end{array} 結果は次のようになります。 123c111nullc21null1c311nullc1c2c3111121null13null1null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 1 …

3
SparkでのIPython / Jupyterの問題(認識されないエイリアス)
いくつかのハードウェアでクラスタを構築するために出費する前に、Sparkを試すためのVMセットの設定に取り組んでいます。簡単な説明:私は応用機械学習のバックグラウンドを持つ学者であり、データサイエンスでは仕事がやや終了しました。私はコンピューティングにツールを使用していますが、それらを設定する必要はほとんどありません。 3つのVM(1つのマスター、2つのスレーブ)を作成し、Sparkを正常にインストールしました。すべてが正常に機能しているようです。私の問題は、クラスター上のマシンで実行されていないブラウザーから接続できるJupyterサーバーを作成することです。 Jupyter Notebookを正常にインストールしました...実行されます。Sparkでリモートサーバーに接続する新しいIPythonプロファイルを追加しました。 今問題 コマンド $ ipython --profile=pyspark 正常に動作し、スパーククラスターに接続します。しかしながら、 $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. デフォルトでは、defaultプロファイルではなくpysparkプロファイルになります。 私のノートブック構成pysparkは: c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

2
Pysparkでカテゴリデータを数値データに変換する方法
私はIpythonノートブックを使用してpysparkアプリケーションを操作しています。収入が5万人の範囲に収まるかそれ以上かを判断するための多数のカテゴリ列を含むCSVファイルがあります。すべての入力を使用して分類アルゴリズムを実行し、収入の範囲を決定したいと思います。マップされた変数に変数のディクショナリーを作成し、マップ関数を使用して変数を処理する数値にマップする必要があります。基本的に、モデルの実装に取り​​掛かれるように、データセットは数値形式にする必要があります。 データセットには、教育、婚姻状況、労働者階級などのカテゴリ列があります。pysparkで数値列に変換する方法を誰かに教えてもらえますか? workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ワーククラスのキーと値のペアを含むサンプルディクショナリを作成しました。しかし、これをマップ関数で使用して、CSVファイルのカテゴリデータを対応する値に置き換える方法がわかりません。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) これは、カテゴリデータを数値データに変換するために通常のpythonで記述したコードです。正常に動作します。スパークのコンテキストで変換を実行したい。また、データソースには9つのカテゴリ列があります。辞書の更新プロセスを自動化して9列すべてにKVペアを設定する方法はありますか?

1
Spark ALS:新規ユーザーに推奨
質問 SparkでトレーニングされたALSモデルで新しいユーザーの評価を予測するにはどうすればよいですか?(新規=トレーニング時間中には表示されません) 問題 私はここで公式のSpark ALSチュートリアルに従っています: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html まともなMSEで良いレコメンダーを構築できますが、新しいデータをモデルに入力する方法に苦労しています。このチュートリアルでは、トレーニング前に最初のユーザーの評価を変更していますが、これは実際にはハックです。彼らは次のヒントを与えます: 9.2。行列係数の増加: このチュートリアルでは、トレーニングセットに評価を追加します。推奨事項を取得するためのより良い方法は、最初に行列因数分解モデルをトレーニングしてから、評価を使用してモデルを拡張することです。これが面白そうに思える場合は、MatrixFactorizationModelの実装を確認し、新しいユーザーと新しい映画のモデルを更新する方法を確認できます。 ただし、この実装は私にはまったく役立ちません。理想的には、私は次のようなものを探しています: predictions = model.predictAllNew(newinput) しかし、そのような方法は存在しません。元のRDDを変更することもできますが、モデルを再トレーニングする必要があるため、それも理想的なソリューションではありません。きっともっとエレガントな方法があるに違いない? 私が今いるところ: 新しいベクトルの潜在的な表現を見つける必要があると思います。元の論文によると、次のように計算できます。 バツあなた= (YTCあなたY+ λのI)− 1YTCあなたp (u )バツあなた=(YTCあなたY+λ私)−1YTCあなたp(あなた)X_u = (Y^T C^u Y + \lambda I)^{-1} Y^T C^u p(u) CあなたCあなたC^u 私の現在の試み: V = model.productFeatures().map(lambda x: (x[1])).collect() #product latent matrix Y Cui = alpha * np.abs(newinput) Cui = …

1
機械学習を使用したサーバーログ分析
例外ログ、データベースログ、イベントログなどを含むアプリケーションのサーバーログを分析するためにこのタスクが割り当てられました。機械学習は初めてで、Sparkをエラスティック検索とSparks MLlib(またはPredictionIO)で使用しています。結果は、収集された例外ログに基づいて予測できるようになり、次の例外を発生させる可能性が高いユーザーと機能(および追跡してアプリケーションの最適化を改善する他の要素)を予測できるようになります。 ElasticSearchからSparkにデータを取り込み、DataFrameを作成して必要なデータをマッピングすることに成功しました。私が知りたいのは、実装の機械学習の側面にどのように取り組むかです。私は、データの前処理、データモデルのトレーニング、ラベルの作成、そして予測の生成について説明する記事や論文を読みました。 私が持っている質問は 既存のログデータを、トレーニングするデータセットに使用できる数値ベクトルに変換する方法を教えてください。 データセットをトレーニングするためにどのアルゴリズムを使用しますか? この問題へのアプローチ方法に関する提案を探しています。 ありがとうございました。

1
Spark、単一のRDDを2つに最適に分割
特定のパラメーターに従ってグループに分割する必要がある大きなデータセットがあります。ジョブをできるだけ効率的に処理したい。そうするための2つの方法を想像することができます オプション1-元のRDDからマップを作成してフィルターする def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() オプション2-元のRDDを直接フィルターする def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = rddIn.filter(customFilter).cache() fistメソッドは、元のデータセットのすべてのレコードを3回テストする必要がありますが、2番目は通常の状況では2回のみ行う必要がありますが、sparkはシーンのグラフ作成の背後でいくらか実行するので、効果的に同じ方法で行われます。私の質問は次のとおりです:a。)1つの方法が他の方法より効率的であるか、またはスパークグラフの構築によってそれらが同等になるかb。)この分割を単一のパスで実行することは可能ですか

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 


2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
Apache Sparkでコサイン類似度を計算する
特定の単語のIDFが計算されたDataFrameがあります。例えば (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on クエリQを指定すると、このクエリのTF-IDFを計算できます。データフレーム内のすべてのドキュメントを含むクエリのコサイン類似度を計算するにはどうすればよいですか(100万のドキュメントに近い) ベクトルの乗算を使用して、map-reduceジョブで手動で実行できます コサイン類似度(Q、ドキュメント)=ドット積(Q、ドキュメント)/ || Q || * ||ドキュメント|| しかし確かにSpark MLはテキストのコサイン類似度の計算をネイティブでサポートする必要がありますか? 言い換えると、検索クエリが与えられた場合、DataFrameからドキュメントTF-IDFの最も近い余弦をどのように見つけるのですか?

4
アンバランスクラス:Spark MLLibのMLアルゴリズムのclass_weight
Python sklearnには、不均衡データを処理するためのclass_weightパラメーターを持つ複数のアルゴリズム(たとえば、回帰、ランダムフォレストなど)があります。 ただし、MLLibアルゴリズムにはそのようなパラメーターはありません。一部のMLLibアルゴリズムにclass_weightを実装する計画はありますか?または、MLLibに不均衡データに対するアプローチはありますか?それとも実際に、MLLibですべてのアップ/ダウンサンプリングを自分で処理する必要がありますか? ありがとう!

4
Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法
Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか? 環境変数のパス:C:/Users/Name/Spark-1.4; C:/Users/Name/Spark-1.4/bin その後、cmdプロンプトで:spark-submit script.py

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.