SparkUIから。スキップとはどういう意味ですか?
回答:
通常、これはデータがキャッシュからフェッチされており、特定のステージを再実行する必要がなかったことを意味します。これは、次の段階でシャッフルが必要であることを示すDAGと一致しています(reduceByKey
)。シャッフルが含まれる場合は常に、Sparkは生成されたデータを自動的にキャッシュします。
シャッフルはまた、ディスク上に多数の中間ファイルを生成します。Spark 1.3以降、これらのファイルは、対応するRDDが使用されなくなり、ガベージコレクションされるまで保持されます。これは、系統が再計算された場合にシャッフルファイルを再作成する必要がないようにするためです。