Apache SparkはHadoopなしで実行できますか？

Question 1

SparkとHadoopの間に依存関係はありますか？

そうでない場合、HadoopなしでSparkを実行したときに見逃してしまう機能はありますか？

Question 2

SparkはHadoopなしで実行できますが、その機能の一部はHadoopのコードに依存しています（Parquetファイルの処理など）。MesosとS3でSparkを実行していますが、セットアップは少し面倒ですが、一度実行すると非常にうまく機能します（適切に設定するために必要なものの概要をここで読むことができます）。

（編集）注：バージョン2.3.0以降、SparkはKubernetesのネイティブサポートも追加しました

Question 3

Sparkはインメモリ分散コンピューティングエンジンです。

Hadoopは、分散ストレージ（HDFS）と分散処理（YARN）のフレームワークです。

Sparkは、Hadoopコンポーネント（HDFS / YARN）の有無にかかわらず実行できます

分散ストレージ：

以来スパークは、独自の分散ストレージシステムを持っていない、それは、分散コンピューティングのためのこれらのストレージ・システムの一つに依存しています。

S3 –緊急ではないバッチジョブ。S3は、データの局所性が重要ではない非常に特殊なユースケースに適合します。

Cassandra –ストリーミングデータ分析とバッチジョブのやり過ぎに最適です。

HDFS –データの局所性を損なうことなくバッチジョブに最適です。

分散処理：

Sparkは、スタンドアロン、YARN、Mesosの3つの異なるモードで実行できます。

分散ストレージと分散処理の両方の詳細な説明については、以下のSEの質問を参照してください。

Sparkにはどのクラスタータイプを選択する必要がありますか？

Question 4

デフォルトでは、Sparkにはストレージメカニズムがありません。

データを保存するには、高速でスケーラブルなファイルシステムが必要です。S3、HDFS、またはその他のファイルシステムを使用できます。Hadoopは、低コストであるため経済的なオプションです。

さらに、Tachyonを使用すると、Hadoopのパフォーマンスが向上します。ApacheSpark処理にはHadoopを強くお勧めします。

Question 5

はい、SparkはHadoopなしで実行できます。すべてのコアSpark機能は引き続き機能しますが、すべてのファイル（コードとデータ）をhdfsを介してクラスター内のすべてのノードに簡単に配布するなどの機能を見逃すことになります。

Question 6

Sparkのドキュメントによると、SparkはHadoopなしで実行できます。

リソースマネージャーなしでスタンドアロンモードとして実行できます。

ただし、マルチノードセットアップで実行する場合は、YARNやMesosなどのリソースマネージャーと、HDFS、S3などの分散ファイルシステムが必要です。

Question 7

はい、HadoopなしでSparkをインストールできます。それは少し注意が必要です。arnonlinkを参照して、Parquetを使用してS3でデータストレージとして構成できます。 http://arnon.me/2015/08/spark-parquet-s3/

Sparkは処理を行うだけで、動的メモリを使用してタスクを実行しますが、データを保存するには、データストレージシステムが必要です。ここで、HadoopはSparkで役割を果たし、Sparkのストレージを提供します。SparkでHadoopを使用するもう1つの理由は、Hadoopがオープンソースであり、他のデータストレージシステムと比較して、両方を簡単に統合できることです。S3のような他のストレージの場合、上記のリンクに記載されているように構成するのは難しいはずです。

ただし、HadoopにはMapreduceと呼ばれる処理ユニットもあります。

両方の違いを知りたいですか？

この記事を確認してください：https：//www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

この記事はあなたが理解するのに役立つと思います

何を使うか、
ときに使用すると、
使い方！！！

Question 8

はい、もちろん。Sparkは独立した計算フレームワークです。Hadoopは、MapReduce計算フレームワークを備えた分散ストレージシステム（HDFS）です。Sparkは、HDFSだけでなく、従来のデータベース（JDBC）、kafka、さらにはローカルディスクなどの他のデータソースからデータを取得できます。

Question 9

はい、SparkはHadoopのインストールの有無にかかわらず実行できます。詳細については、https：//spark.apache.org/docs/latest/をご覧ください。

Question 10

はい、SparkはHadoopなしで実行できます。Hadoopを使用せずにローカルマシンにsparkをインストールできます。ただし、Spark libにはHaddop以前のライブラリが付属しています。つまり、ローカルマシンへのインストール時に使用されます。

Question 11

いいえ。動作を開始するには、本格的なHadoopのインストールが必要です-https ：//issues.apache.org/jira/browse/SPARK-10944