Apache Spark:コアの数とエグゼキューターの数
YARNでSparkジョブを実行するときのコアの数とエグゼキューターの数の関係を理解しようとしています。 テスト環境は次のとおりです。 データノードの数:3 データノードマシンの仕様: CPU:Core i7-4790(コア数:4、スレッド数:8) RAM:32GB(8GB x 4) HDD:8TB(2TB x 4) ネットワーク:1 Gb Sparkバージョン:1.0.0 Hadoopバージョン:2.4.0(Hortonworks HDP 2.1) Sparkジョブフロー:sc.textFile-> filter-> map-> filter-> mapToPair-> reduceByKey-> map-> saveAsTextFile 入力データ タイプ:単一のテキストファイル サイズ:165GB ライン数:454,568,833 出力 2番目のフィルター後の行数:310,640,717 結果ファイルの行数:99,848,268 結果ファイルのサイズ:41GB ジョブは次の構成で実行されました: --master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3 (データノードごとのエグゼキューター、コアと同じだけ使用) --master yarn-client --executor-memory 19G --executor-cores 4 …