HadoopとnoSQLの違いは何ですか


15

人々がデータを処理するのを支援するための多くのツール/フレームワークについて聞いた(ビッグデータ環境)。

1つはHadoopと呼ばれ、もう1つはnoSQLの概念です。処理のポイントの違いは何ですか?

それらは補完的ですか?


3
研究努力の欠如に反対票を投じた。HadoopとnoSQLは、他の場所で明確に定義されています。
Spacedman 14年

@Spacedmanは同意しますが、それはArea51からの質問の例であり、それが有効であると推測する前に削除されなかった場合、そして質問を投稿するときに答えを知っていました(少なくとも一般的に)。
рüффп

回答:


16

Hadoopはデータベースはなく、hadoopはエコシステム全体です。

hadoopエコシステム

ほとんどの人はを参照しますのMapReduceのHadoopの話をしながら仕事。mapreduceジョブは、大きなデータセットをいくつかの小さなデータチャンクに分割し、それらをノードのクラスターに広げて先に進みます。最終的に、各ノードからの結果は1つのデータセットとして再びまとめられます。


<String, Integer>都市内の一部の近隣の人口を含むセットをhadoopにロードし、各都市の近隣全体の平均人口を取得すると仮定します(図1)。

図1

    [new york, 40394]
    [new york, 134]
    [la, 44]
    [la, 647]
    ...

これで、hadoopはまずキーを使用して各値をマッピングします(図2)

図2

[new york, [40394,134]]
[la, [44,647]]
...

マッピング後、各キーの値を新しい値(この例では各キーの値セットの平均)に減らします(図3)

図3

[new york, [20264]]
[la, [346]]
...

今ではすべてでhadoopが行われます。これで、結果をHDFS(hadoop分散ファイルシステム)または任意のDBMSまたはファイルにロードできます。

それは、hadoopでできることのほんの1つの非常に基本的単純な例です。hadoopでは、はるかに複雑なタスクを実行できます。

質問ですでに述べたように、hadoopとnoSQLは補完的です。つまり、センサーからの数十億のデータセットがHBaseに保存され、その後hadoopを経由して最終的にDBMSに保存されるセットアップをいくつか知っています。


5

NoSQLは、何らかの関係を必要としないデータを保存する方法です。シンプルなデザインと水平方向の拡張性、データを保存する1つの方法はkey : valueペアデザインです。これは、Hadoopに似た処理に役立ちます。NoSQL dbの使用は、実際に問題の種類に依存します。

ここに良いSQLがありますNoSQLリンク

Hadoopは、大量のデータを保存および処理するためのシステムです。分散ファイルシステムdfsです。これを行う理由は、その設計の中心はハードウェア障害が一般的であると想定しているため、同じ情報の複数のコピーを作成し、それを複数のマシンとラックに分散しているためです。さらに2つのコピーがあります。ウィキペディアのHadoopへの素晴らしいリンクもあります。私の意見では、単なるストレージではなく、処理でもあります 。Hadoop

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.