回答:
Hadoopはデータベースではなく、hadoopはエコシステム全体です。
ほとんどの人はを参照しますのMapReduceのHadoopの話をしながら仕事。mapreduceジョブは、大きなデータセットをいくつかの小さなデータチャンクに分割し、それらをノードのクラスターに広げて先に進みます。最終的に、各ノードからの結果は1つのデータセットとして再びまとめられます。
<String, Integer>
都市内の一部の近隣の人口を含むセットをhadoopにロードし、各都市の近隣全体の平均人口を取得すると仮定します(図1)。
図1
[new york, 40394]
[new york, 134]
[la, 44]
[la, 647]
...
これで、hadoopはまずキーを使用して各値をマッピングします(図2)
図2
[new york, [40394,134]]
[la, [44,647]]
...
マッピング後、各キーの値を新しい値(この例では各キーの値セットの平均)に減らします(図3)
図3
[new york, [20264]]
[la, [346]]
...
今ではすべてでhadoopが行われます。これで、結果をHDFS(hadoop分散ファイルシステム)または任意のDBMSまたはファイルにロードできます。
それは、hadoopでできることのほんの1つの非常に基本的で単純な例です。hadoopでは、はるかに複雑なタスクを実行できます。
質問ですでに述べたように、hadoopとnoSQLは補完的です。つまり、センサーからの数十億のデータセットがHBaseに保存され、その後hadoopを経由して最終的にDBMSに保存されるセットアップをいくつか知っています。
NoSQLは、何らかの関係を必要としないデータを保存する方法です。シンプルなデザインと水平方向の拡張性、データを保存する1つの方法はkey : value
ペアデザインです。これは、Hadoopに似た処理に役立ちます。NoSQL dbの使用は、実際に問題の種類に依存します。
ここに良いSQLがありますNoSQLリンク
Hadoopは、大量のデータを保存および処理するためのシステムです。分散ファイルシステムdfsです。これを行う理由は、その設計の中心はハードウェア障害が一般的であると想定しているため、同じ情報の複数のコピーを作成し、それを複数のマシンとラックに分散しているためです。さらに2つのコピーがあります。ウィキペディアのHadoopへの素晴らしいリンクもあります。私の意見では、単なるストレージではなく、処理でもあります 。Hadoop