タグ付けされた質問 「map-reduce」

3
最近傍データによる非常に高次元のデータの検索
私は、ユーザーと彼らが好むアイテムの大きなまばらなマトリックスを持っています(100万ユーザーと100Kアイテムのオーダーで、非常に低いレベルのスパース性があります)。kNN検索を実行する方法を模索しています。データセットのサイズと実行した初期テストを考えると、使用する方法は並列または分散のいずれかである必要があるという前提があります。そこで、2つのクラスの可能なソリューションを検討しています。1つは単一のマルチコアマシンで利用可能(または合理的に簡単な方法で実装可能)、もう1つはSparkクラスター、つまりMapReduceプログラムとして利用可能です。私が検討した3つの広範なアイデアは次のとおりです。 コサイン類似度メトリックを想定して、正規化された行列とその転置(外積の合計として実装)の完全な乗算を実行します。 局所性依存ハッシュ(LSH)の使用 最初にPCAで問題の次元を減らす この問題に取り組むことができる他の可能な方法についての考えやアドバイスをいただければ幸いです。

3
Amazon RedShiftは〜1XTBデータのHadoopを置き換えますか?
Hadoopとそのエコシステムを取り巻く多くの誇大宣伝があります。しかし、実際には、多くのデータセットがテラバイトの範囲にある場合、Hadoopクラスターの構築に時間と労力を費やすのではなく、大きなデータセットのクエリにAmazon RedShiftを使用する方が合理的ではありませんか? また、セットアップの複雑さ、コスト、パフォーマンスに関して、Amazon RedshiftはHadoopと比較してどうですか?

3
MongoDB用に作成されたmap-reduceアルゴリズムを後でHadoopに移植できますか?
私たちの会社には、多くの非構造化データを含むMongoDBデータベースがあり、その上でマップ削減アルゴリズムを実行して、レポートやその他の分析を生成する必要があります。必要な分析を実装するために選択する2つの方法があります。 1つのアプローチは、MongoDBからHadoopクラスターにデータを抽出し、Hadoopプラットフォームで完全に分析を行うことです。ただし、これには、プラットフォーム(ソフトウェアとハ​​ードウェア)の準備と、Hadoopで作業し、そのためのマップ縮小タスクを作成するようにチームを教育するために、かなりの投資が必要です。 別のアプローチは、map-reduceアルゴリズムの設計に私たちの努力を注ぎ、MongoDB map-reduce機能でアルゴリズムを実行することです。このようにして、レポートを生成できる最終システムの初期プロトタイプを作成できます。MongoDBのmap-reduce機能はHadoopに比べてはるかに遅いことは知っていますが、現在のところ、データはそれほど大きくないため、少なくとも次の6か月間はボトルネックになりません。 問題は、2番目のアプローチを使用してMongoDBのアルゴリズムを作成することで、それらを後で必要な変更とアルゴリズムの再設計をほとんど行わずにHadoopに移植できるかどうかです。MongoDBはJavaScriptをサポートするだけですが、プログラミング言語の違いは簡単に処理できます。しかし、MongoDBとHadoopのmap-reduceモデルには、Hadoopへの移植のためにアルゴリズムを大幅に再設計する必要がある根本的な違いはありますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


1
R Mapreduce(RHadoop)の線形回帰
私はRHadoopとRMRを初めて使用します... MapreduceでMapreduceジョブを作成する必要がありました。書き込みを試しましたが、実行中にエラーが発生しました。hdfsからファイルを読み取るためのTring エラー: Error in mr(map = map, reduce = reduce, combine = combine, vectorized.reduce, : hadoop streaming failed with error code 1 コード: Sys.setenv(HADOOP_HOME="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/lib/hadoop") Sys.setenv(HADOOP_CMD="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/bin/hadoop") Sys.setenv(HADOOP_STREAMING="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.7.0.jar") library(rmr2) library(rhdfs) hdfs.init() day_file = hdfs.file("/hdfs/bikes_LR/day.csv","r") day_read = hdfs.read(day_file) c = rawToChar(day_read) XtX = values(from.dfs( mapreduce( input = "/hdfs/bikes_LR/day.csv", map= function(.,Xi){ yi =c[Xi[,1],] …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.