タグ付けされた質問 「mapreduce」

MapReduceは、多数のノードを使用して、特定の種類の分散可能な問題に関する巨大なデータセットを処理するためのアルゴリズムです。

9
Java8:Stream / Map-Reduce / Collectorを使用してHashMap <X、Y>からHashMap <X、Z>へ
単純なJava ListをY-&gt; から「変換」する方法を知っていますZ。つまり、 List&lt;String&gt; x; List&lt;Integer&gt; y = x.stream() .map(s -&gt; Integer.parseInt(s)) .collect(Collectors.toList()); 今、私はマップと基本的に同じことをしたいと思います、すなわち: INPUT: { "key1" -&gt; "41", // "41" and "42" "key2" -&gt; "42 // are Strings } OUTPUT: { "key1" -&gt; 41, // 41 and 42 "key2" -&gt; 42 // are Integers } ソリューションはString-&gt;に限定されるべきではありませんInteger。List上記の例のように、任意のメソッド(またはコンストラクター)を呼び出します。

4
適切なMapReduceの例[終了]
現在のところ、この質問はQ&A形式には適していません。回答は事実、参考文献、専門知識によって裏付けられると期待していますが、この質問は、議論、議論、投票、または拡張ディスカッションを求める可能性があります。この質問を改善でき、再開できると思われる場合は、ヘルプセンターにアクセスしてください。 7年前休業。 「MapReduceを使用して長いテキストの単語を数える方法」タスク以外の良い例は考えられませんでした。これは、このツールがどれほど強力であるかを他の人に印象付けるための最良の例ではないことがわかりました。 私はコードスニペットを探しているのではなく、単に「テキスト」の例を探しています。
202 mapreduce 


3
.NETでのマップと削減
「Map and Reduce」アルゴリズムの使用が保証されるのはどのシナリオですか? このアルゴリズムの.NET実装はありますか?
152 c#  mapreduce 

13
Hadoopでの複数のMapReduceジョブのチェーン
MapReduceを適用する多くの実際の状況では、最終的なアルゴリズムは最終的にいくつかのMapReduceステップになります。 つまり、Map1、Reduce1、Map2、Reduce2などです。 したがって、次のマップの入力として必要な最後の削減からの出力があります。 中間データは、パイプラインが正常に完了した後に(一般的に)保持したくないものです。また、この中間データは一般に一部のデータ構造(「マップ」や「セット」など)であるため、これらのキーと値のペアの書き込みと読み取りにあまり労力をかけたくありません。 Hadoopでそれを行うための推奨される方法は何ですか? 後のクリーンアップを含め、この中間データを正しい方法で処理する方法を示す(簡単な)例はありますか?
124 hadoop  mapreduce 

6
Hadoopはどのようにしてレコードをブロック境界にまたがって処理しますか?
による Hadoop - The Definitive Guide FileInputFormatsが定義する論理レコードは、通常、HDFSブロックにきちんと適合しません。たとえば、TextInputFormatの論理レコードは線であり、HDFSの境界を越える頻度が高くなります。これは、プログラムの機能には影響しません。たとえば、行が失われたり壊れたりすることはありません。ただし、データローカルマップ(つまり、ローカルの同じホストで実行されているマップ)入力データ)は、いくつかのリモート読み取りを実行します。これが引き起こすわずかなオーバーヘッドは、通常は重要ではありません。 レコード行が2つのブロック(b1とb2)に分割されているとします。最初のブロック(b1)を処理するマッパーは、最後の行にEOLセパレータがないことに気づき、次のデータブロック(b2)から行の残りをフェッチします。 2番目のブロック(b2)を処理するマッパーは、最初のレコードが不完全であり、ブロック(b2)の2番目のレコードから処理を開始する必要があるとどのように判断しますか?
119 hadoop  split  mapreduce  block  hdfs 

9
Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか?
Map Reduceプログラミングでは、reduceフェーズはそのサブパートとしてシャッフル、ソート、reduceを行います。並べ替えはコストのかかる作業です。 Map Reduceプログラミングのリデューサーでシャッフルとソートのフェーズの目的は何ですか?

4
MapReduceソートアルゴリズムはどのように機能しますか?
MapReduceの威力を示すために使用される主な例の1つは、Terasortベンチマークです。MapReduce環境で使用される並べ替えアルゴリズムの基本を理解できません。 私にとって、ソートは単に、他のすべての要素との関係における要素の相対位置を決定することを含みます。したがって、ソートには「すべて」と「すべて」の比較が含まれます。平均的な並べ替えアルゴリズム(クイック、バブルなど)は、これをスマートな方法で単純に実行します。 私の考えでは、データセットを多くの部分に分割するということは、1つの部分を並べ替えることができ、これらの部分を「完全な」完全に並べ替えられたデータセットに統合する必要があることを意味します。テラバイトのデータセットが数千のシステムに分散していることを考えると、これは大きな仕事になると思います。 それで、これは実際にどのように行われますか?このMapReduce並べ替えアルゴリズムはどのように機能しますか? 理解してくれてありがとう。

15
Apache Hadoopに相当する.NETはありますか?[閉まっている]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 4年前休業。 この質問を改善する それで、私は鋭敏な興味を持ってHadoopを見てきました。正直、私は魅了されて、物事はそれほど冷たくなりません。 私のマイナーな唯一の問題は、C#開発者であり、Javaにあります。 Google MapReduceアプローチを採用するHadoop.net、NHadoop、または.NETプロジェクトを探しているのと同じくらい、Javaを理解していないわけではありません。誰か知っていますか?
98 c#  .net  hadoop  mapreduce 



8
コンテナがメモリ制限を超えて実行されています
Hadoop v1では、7つのマッパーとレデューサースロットをそれぞれ1GBのサイズで割り当てましたが、マッパーとレデューサーは正常に動作します。私のマシンには8Gメモリ、8プロセッサが搭載されています。YARNで、同じマシンで同じアプリケーションを実行すると、コンテナエラーが発生しました。デフォルトでは、次の設定があります。 &lt;property&gt; &lt;name&gt;yarn.scheduler.minimum-allocation-mb&lt;/name&gt; &lt;value&gt;1024&lt;/value&gt; &lt;/property&gt; &lt;property&gt; &lt;name&gt;yarn.scheduler.maximum-allocation-mb&lt;/name&gt; &lt;value&gt;8192&lt;/value&gt; &lt;/property&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.resource.memory-mb&lt;/name&gt; &lt;value&gt;8192&lt;/value&gt; &lt;/property&gt; それは私にエラーを与えました: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. 次に、mapred-site.xmlでメモリ制限を設定しようとしました。 &lt;property&gt; &lt;name&gt;mapreduce.map.memory.mb&lt;/name&gt; &lt;value&gt;4096&lt;/value&gt; &lt;/property&gt; &lt;property&gt; &lt;name&gt;mapreduce.reduce.memory.mb&lt;/name&gt; …
85 hadoop  mapreduce  yarn  mrv2 


8
Hadoopでreduceタスクはいつ開始されますか?
Hadoopでは、reduceタスクはいつ開始されますか?マッパーの特定の割合(しきい値)が完了した後に開始しますか?もしそうなら、このしきい値は固定されていますか?通常、どのような種類のしきい値が使用されますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.