タグ付けされた質問 「partitioning」

12
Zookeeperはカフカの必須アイテムですか?
Kafkaでは、単一のブローカー、単一のトピック、および1つのプロデューサーと複数のコンシューマー(各コンシューマーがブローカーから独自のデータのコピーを取得する)を持つ単一のパーティションのみを使用したいと思います。これを考えると、Zookeeperを使用することによるオーバーヘッドは望みません。ブローカーだけを使用することはできませんか?飼育係はなぜしなければならないのですか?

5
DataFrameのパーティションを定義するにはどうすればよいですか?
Spark 1.4.0でSpark SQLとDataFramesを使い始めました。ScalaのDataFrameでカスタムパーティショナーを定義したいのですが、その方法がわかりません。 私が使用しているデータテーブルの1つには、次の例のsilimarのトランザクションのリストがアカウントごとに含まれています。 Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 Purchase 70.00 1001 2014-04-01 Payment -150.00 1002 2014-04-01 Purchase 80.00 1002 2014-04-02 Purchase 22.00 1002 2014-04-04 Payment -120.00 1002 2014-04-04 Purchase 60.00 1003 2014-04-02 Purchase 210.00 1003 2014-04-03 Purchase 15.00 少なくとも最初は、ほとんどの計算はアカウント内のトランザクション間で行われます。したがって、アカウントのすべてのトランザクションが同じSparkパーティションにあるように、データをパーティション化したいと思います。 しかし、私はこれを定義する方法を見ていません。DataFrameクラスには …

3
HashPartitionerはどのように機能しますか?
のドキュメントを読みましたHashPartitioner。残念ながら、API呼び出し以外は何も説明されていませんでした。私はHashPartitioner、キーのハッシュに基づいて分散セットを分割することを前提としています。たとえば、私のデータが次のような場合 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) したがって、パーティショナーはこれを異なるパーティションに配置し、同じキーが同じパーティションに分類されます。しかし、コンストラクター引数の意味がわかりません new HashPartitoner(numPartitions) //What does numPartitions do? 上記のデータセットの場合、私が行った場合、結果はどのように異なりますか new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) では、HashPartitioner実際にはどのように機能しますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.