プログラミング distributed-computing

5

ZooKeeperのしくみと仕組みを理解しようとしています。ZooKeeperに匹敵するアプリケーションはありますか？ご存知の場合、ZooKeeperを素人にどのように説明しますか？私はapache wiki、zookeeper sourceforgeを試してみましたが、それでも私はそれに関係することができません。 http://zookeeper.sourceforge.net/index.sf.shtmlを読んだだけなので、このようなサービスは他にありませんか？サーバーサービスの複製と同じくらい簡単ですか？

376 apache-zookeeper distributed-computing

13

Spark-repartition（）とcoalesce（）

Learning Sparkによるとデータの再パーティション化はかなりコストのかかる操作であることを覚えておいてください。Sparkには、データの移動を回避できるように最適化されたバージョンのrepartition()呼び出されたバージョンもありcoalesce()ますが、RDDパーティションの数を減らしている場合のみです。私が得る1つの違いはrepartition()、パーティションの数を増やす/減らすことができるがcoalesce()、パーティションの数を減らすことしかできないということです。パーティションが複数のマシンに分散してcoalesce()実行されている場合、どのようにしてデータの移動を回避できますか？

254 apache-spark distributed-computing rdd

2

Spark Standaloneクラスターのワーカー、エグゼキューター、コアとは何ですか？

クラスターモードの概要を読みましたが、Sparkスタンドアロンクラスターのさまざまなプロセスと並列処理をまだ理解できません。ワーカーはJVMプロセスですか？私はを実行したbin\start-slave.shところ、ワーカー（実際にはJVM）が起動されることがわかりました。上記のリンクのとおり、エグゼキューターは、タスクを実行するワーカーノード上のアプリケーションに対して起動されるプロセスです。executorもJVMです。これらは私の質問です：実行者はアプリケーションごとです。では、労働者の役割は何でしょうか？それはエグゼキューターと調整し、結果をドライバーに伝えますか？または、ドライバーはエグゼキューターに直接話しかけますか？もしそうなら、労働者の目的は何ですか？アプリケーションのエグゼキューターの数を制御するにはどうすればよいですか？エグゼキューター内でタスクを並行して実行できますか？もしそうなら、どのようにエグゼキューターのスレッド数を設定しますか？ワーカー、エグゼキューター、エグゼキューターコア（--total-executor-cores）の関係は何ですか？ノードあたりのワーカー数が増えるとはどういう意味ですか？更新しました例を見て理解を深めましょう。例1： 5つのワーカーノード（各ノードに8つのコアがある）を持つスタンドアロンクラスターデフォルトの設定でアプリケーションを起動したとき。例2例1と同じクラスター構成ですが、次の設定でアプリケーションを実行します--executor-cores 10 --total-executor-cores 10。例3 例1と同じクラスター構成ですが、次の設定でアプリケーションを実行します--executor-cores 10 --total-executor-cores 50。例4 例1と同じクラスター構成ですが、次の設定でアプリケーションを実行します--executor-cores 50 --total-executor-cores 50。例5 例1と同じクラスター構成ですが、次の設定でアプリケーションを実行します--executor-cores 50 --total-executor-cores 10。これらの各例では、エグゼキューターは何人ですか？エグゼキューターあたりのスレッド数は？コアはいくつですか？アプリケーションごとのエグゼキューターの数はどのように決定されますか？それは常に労働者の数と同じですか？

219 apache-spark distributed-computing

5

キャッシュと永続化の違いは何ですか？

RDD持続性に関して、spark cache()との違いは何persist()ですか？

202 apache-spark distributed-computing rdd

3

カフカの消費者相殺を決定するものは何ですか？

私はカフカに比較的新しいです。私はそれを少し実験しましたが、消費者オフセットに関していくつかのことが不明確です。私がこれまでに理解したことから、コンシューマーが開始するときに、読み取りを開始するオフセットは、構成設定によって決まりますauto.offset.reset（間違っている場合は訂正してください）。たとえば、トピックに10個のメッセージ（オフセット0〜9）があり、コンシューマーがダウンする前（またはコンシューマーを強制終了する前）にたまたま5個消費したとします。次に、その消費者プロセスを再起動するとします。私の質問は： auto.offset.resetがに設定されている場合、smallest常にオフセット0から消費を開始しますか？ auto.offset.resetがに設定されている場合、largestオフセット5から消費を開始しますか？この種のシナリオに関する動作は常に確定的ですか？私の質問に不明な点がある場合は、遠慮なくコメントしてください。前もって感謝します。

170 java distributed-computing apache-kafka

25

10億の数値の中央値を計算する

10億の数値と100のコンピューターがある場合、これらの数値の中央値を特定する最良の方法は何ですか？私が持っている1つの解決策は：セットをコンピュータ間で均等に分割します。それらを並べ替えます。各セットの中央値を見つけます。セットを中央値で並べ替えます。最小中央値から最大中央値まで、一度に2つのセットをマージします。我々が持っている場合はm1 < m2 < m3 ...、最初のマージをSet1し、Set2そして得られたセットで、我々はすべての数字が中央値よりも低く破棄することができますSet12（マージ）。したがって、どの時点でも同じサイズのセットがあります。ちなみに、これは並行して行うことはできません。何か案は？

127 algorithm distributed-computing

タグ付けされた質問 「distributed-computing」

タグ付けされた質問「distributed-computing」