タグ付けされた質問 「apache-hadoop」

Hadoopは、信頼性が高くスケーラブルな分散コンピューティングのためのソフトウェアを提供するApacheオープンソースプロジェクトです。プロジェクト自体には、他にもさまざまな補完機能が含まれています。


5
Apache SparkとHadoopの使用例は何ですか
Hadoop 2.0とYARNを使用すると、Hadoopはもはやマップ削減ソリューションだけに縛られることはありません。その進歩により、Apache SparkとHadoopの両方がHDFSの上にあることを考慮したユースケースは何ですか?Sparkの導入ドキュメントを読みましたが、Hadoopと比較してSparkでより効率的で簡単に解決できる問題に遭遇した人がいるかどうか興味があります。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
HadoopとnoSQLの違いは何ですか
人々がデータを処理するのを支援するための多くのツール/フレームワークについて聞いた(ビッグデータ環境)。 1つはHadoopと呼ばれ、もう1つはnoSQLの概念です。処理のポイントの違いは何ですか? それらは補完的ですか?

3
Amazon RedShiftは〜1XTBデータのHadoopを置き換えますか?
Hadoopとそのエコシステムを取り巻く多くの誇大宣伝があります。しかし、実際には、多くのデータセットがテラバイトの範囲にある場合、Hadoopクラスターの構築に時間と労力を費やすのではなく、大きなデータセットのクエリにAmazon RedShiftを使用する方が合理的ではありませんか? また、セットアップの複雑さ、コスト、パフォーマンスに関して、Amazon RedshiftはHadoopと比較してどうですか?

2
StormとHadoop間のトレードオフ(MapReduce)
データ処理のためにHadoopクラスタでStormとMapReduceを選択する際のトレードオフについて、誰かが親切に教えてもらえますか?もちろん、明白なものは別として、Hadoop(HadoopクラスターのMapReduceを介した処理)はバッチ処理システムであり、Stormはリアルタイム処理システムです。 私はHadoop Eco Systemを少し使用しましたが、Stormは使用していません。たくさんのプレゼンテーションや記事を調べた後、満足できる包括的な答えを見つけることができませんでした。 注:ここでのトレードオフという用語は、同様のものと比較することを意図したものではありません。バッチ処理システムにない結果をリアルタイムで取得することの結果を表すことを目的としています。

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
MongoDB用に作成されたmap-reduceアルゴリズムを後でHadoopに移植できますか?
私たちの会社には、多くの非構造化データを含むMongoDBデータベースがあり、その上でマップ削減アルゴリズムを実行して、レポートやその他の分析を生成する必要があります。必要な分析を実装するために選択する2つの方法があります。 1つのアプローチは、MongoDBからHadoopクラスターにデータを抽出し、Hadoopプラットフォームで完全に分析を行うことです。ただし、これには、プラットフォーム(ソフトウェアとハ​​ードウェア)の準備と、Hadoopで作業し、そのためのマップ縮小タスクを作成するようにチームを教育するために、かなりの投資が必要です。 別のアプローチは、map-reduceアルゴリズムの設計に私たちの努力を注ぎ、MongoDB map-reduce機能でアルゴリズムを実行することです。このようにして、レポートを生成できる最終システムの初期プロトタイプを作成できます。MongoDBのmap-reduce機能はHadoopに比べてはるかに遅いことは知っていますが、現在のところ、データはそれほど大きくないため、少なくとも次の6か月間はボトルネックになりません。 問題は、2番目のアプローチを使用してMongoDBのアルゴリズムを作成することで、それらを後で必要な変更とアルゴリズムの再設計をほとんど行わずにHadoopに移植できるかどうかです。MongoDBはJavaScriptをサポートするだけですが、プログラミング言語の違いは簡単に処理できます。しかし、MongoDBとHadoopのmap-reduceモデルには、Hadoopへの移植のためにアルゴリズムを大幅に再設計する必要がある根本的な違いはありますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Rのメモリ制約とは何ですか?
「Applied Predictive Modeling」のレビューでは、レビュー担当者は次のように述べています。 統計学習(SL)の教育学について私が批判している点の1つは、さまざまなモデリング手法の評価において計算パフォーマンスを考慮していないことです。SLは、ブートストラップと、モデルの調整/テストのための相互検証に重点を置いているため、非常に計算集約的です。それに加えて、バギングやブースティングなどの手法に組み込まれているリサンプリングには、大規模なデータセットの教師あり学習のための計算の地獄があります。実際、Rのメモリの制約により、ランダムフォレストなどのパフォーマンスの高い方法で適合できるモデルのサイズにかなり厳しい制限が課されます。SLは小さなデータセットに対してモデルのパフォーマンスを調整するのに適していますが、より大きなデータのパフォーマンスと計算コストを理解することは確かです。 Rのメモリの制約とは何ですか。また、ランダムフォレストのようなトップパフォーマンスの方法で適合できるモデルのサイズに厳しい制限がありますか?
10 apache-hadoop  r 

3


1
Apache Stormのカスケードエラー
TwitterによるSummingbirdのプレゼンテーションと資料を見てみると、SummingbirdでStormとHadoopのクラスターを一緒に使用する理由の1つは、Stormを介して処理するとエラーが連鎖的に発生することです。このエラーのカスケードとその累積を回避するために、Hadoopクラスターを使用してデータをバッチ処理し、同じデータがHadoopによって処理された後にStormの結果を破棄します。 このエラーの蓄積が発生する理由は何ですか?そして、なぜそれがHadoopに存在しないのですか?私はストームで働いたことがないので、その理由はわかりません。それは、Stormがリアルタイムでデータを処理するために、データを処理するために何らかの近似アルゴリズムを使用しているためですか?または原因は何か他にありますか?

3
Hadoop、Spark、Spark Streamingの優れた書籍[終了]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 5年前休業。 誰でも、Hadoopを学習し、基本を減らすための良い本を提案できますか? また、SparkとSpark Streamingのための何か? ありがとう

2
Lambdaアーキテクチャ-マージレイヤー/クエリレイヤーの実装方法
ラムダアーキテクチャについて読んでいます。 それは理にかなっている。キューベースのデータ取り込みがあります。非常に新しいデータ用のメモリ内ストアがあり、古いデータ用のHDFSがあります。 これでデータセット全体ができました。私たちのシステムで。とても良い。 ただし、アーキテクチャ図は、マージレイヤーがバッチレイヤーとスピードレイヤーの両方を一度にクエリできることを示しています。 どうやってするか? バッチレイヤーは、おそらくマップ削減ジョブまたはHIVEクエリです。スピードレイヤークエリは、おそらくスパーク上で実行されるscalaプログラムです。 これらをどのようにマージしますか? 何かアドバイスはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.