プログラミング yarn

8

YARNでSparkジョブを実行するときのコアの数とエグゼキューターの数の関係を理解しようとしています。テスト環境は次のとおりです。データノードの数：3 データノードマシンの仕様： CPU：Core i7-4790（コア数：4、スレッド数：8） RAM：32GB（8GB x 4） HDD：8TB（2TB x 4）ネットワーク：1 Gb Sparkバージョン：1.0.0 Hadoopバージョン：2.4.0（Hortonworks HDP 2.1） Sparkジョブフロー：sc.textFile-> filter-> map-> filter-> mapToPair-> reduceByKey-> map-> saveAsTextFile 入力データタイプ：単一のテキストファイルサイズ：165GB ライン数：454,568,833 出力 2番目のフィルター後の行数：310,640,717 結果ファイルの行数：99,848,268 結果ファイルのサイズ：41GB ジョブは次の構成で実行されました： --master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3 （データノードごとのエグゼキューター、コアと同じだけ使用） --master yarn-client --executor-memory 19G --executor-cores 4 …

192 hadoop apache-spark yarn

4

Spark Kill Runningアプリケーション

他のアプリケーションがリソースを割り当てられないすべてのコアを占有する実行中のSparkアプリケーションがあります。私はいくつかの簡単な調査を行い、人々はYARN killまたは/ bin / spark-classを使用してコマンドをkillすることを提案しました。しかし、私はCDHバージョンを使用していて、/ bin / spark-classもまったく存在せず、YARN killアプリケーションも機能しません。これで誰でも私と一緒にできますか？

101 apache-spark yarn pyspark

8

コンテナがメモリ制限を超えて実行されています

Hadoop v1では、7つのマッパーとレデューサースロットをそれぞれ1GBのサイズで割り当てましたが、マッパーとレデューサーは正常に動作します。私のマシンには8Gメモリ、8プロセッサが搭載されています。YARNで、同じマシンで同じアプリケーションを実行すると、コンテナエラーが発生しました。デフォルトでは、次の設定があります。 <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> それは私にエラーを与えました： Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. 次に、mapred-site.xmlでメモリ制限を設定しようとしました。 <property> <name>mapreduce.map.memory.mb</name> <value>4096</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> …

85 hadoop mapreduce yarn mrv2

タグ付けされた質問 「yarn」

タグ付けされた質問「yarn」