Hadoopとは何ですか?[閉まっている]


28

私はしばらくの間ServerFaultを読むことを楽しんでおり、Hadoopに関するかなり多くのトピックに出会いました。グローバルな観点からそれが何をするかを見つけるのに少し苦労しました。

だから私の質問は非常に簡単です:Hadoopとは何ですか?それは何をするためのものか ?それは何のために使われますか?なぜそれはお尻を蹴るのですか?

編集: Hadoopが使用されたユースケースのデモンストレーション/説明がある人がいたら、それは素晴らしいでしょう。


FacebookはHadoopを多用しています(Hadoopの最上位層であるHiveを実際に使用しています)。Facebook Engineeringページにそれについての良い記事があります。 facebook.com/note.php?note_id=89508453919
ジョンミーガー

Hadoopは、ノード/サーバー間でデータのクラスターを分散し、プロセスを並列に実行することにより、大量のデータ(ビッグデータ)の処理を簡単にするフレームワークです。このプロセス/アルゴリズムは、MapReduceとして知られています。
Mr_Green 14

回答:


26

馬の口からまっすぐ:

Hadoopは、汎用ハードウェアで構築された大規模なクラスターでアプリケーションを実行するためのフレームワークです。Hadoopフレームワークは、信頼性とデータモーションの両方をアプリケーションに透過的に提供します。HadoopはMap / Reduceという名前の計算パラダイムを実装します。アプリケーションは多数の小さな作業フラグメントに分割され、それぞれがクラスター内の任意のノードで実行または再実行されます。さらに、計算ノードにデータを保存する分散ファイルシステム(HDFS)を提供し、クラスター全体で非常に高い集約帯域幅を提供します。Map / Reduceと分散ファイルシステムの両方は、ノードの障害がフレームワークによって自動的に処理されるように設計されています。

Map / Reduceは、Googleで人気のあるプログラミングパラダイムです。タスクでは、タスクが小さな部分に分割され、処理のために多数のノードに分散され(マップ)、結果が最終的な回答(reduce)にまとめられます)。GoogleとYahooは、これを検索エンジンテクノロジーなどに使用しています。

Hadoopは、この種の処理スキームを実装するための汎用フレームワークです。なぜそれがお尻を蹴るのかについては、主にそれがフォールトトレランスなどのきちんとした機能を提供し、処理を行うためにほとんどすべての種類のハードウェアをまとめることができるためです。また、問題がパラダイムに適合していれば、非常にうまくスケーリングします。

あなたはそれについてのすべてをウェブサイトで読むことができます。

いくつかの例については、Paulがいくつか挙げましたが、ここではWeb中心ではないいくつかの方法を紹介します。

  • 3Dフィルムのレンダリング。「マップ」ステップは、すべてのフレームのジオメトリを別のノードに配布し、ノードはそれをレンダリングし、レンダリングされたフレームは「削減」ステップで再結合されます。
  • 分子モデルのシステムのエネルギーを計算します。システムの軌跡の各フレームは、「マップ」ステップでノードに配信されます。ノードは各フレームのエネルギーを計算し、
    結果は「削減」ステップに要約されます。

基本的に、このモデルは、完全に独立した同様の離散計算に分解できる問題に対して非常にうまく機能し、最終結果を生成するために再結合できます。


ご回答ありがとうございます。したがって、基本的にはアプリ(PHP?Java?)を使用し、それらを分割して多数のノード間で作業をディスパッチしますか?HDFSに関しては、ノードの束を除いてOCFSのようなものですか?
アントワーヌベンケモン2009年

これにも興味があります。ただし、より具体的で実際の単語の例をいくつか見たいと思います。
カロリスT.

それは私も探していたものだった:-)
アントワーヌBenkemoun

10

Clouderaには、Map ReduceとHadoopの背後にある原則を説明する素晴らしいビデオがあります。

http://www.cloudera.com/hadoop-training-basic

MapReduceの背後にある中核となるアイデアの1つは、大規模なデータセットの場合はディスクにバインドされるため、Hadoop HDFSでは、並列処理を可能にする多数のノード間で物事を分割できる機能です。

システム管理者にとって興味深いHadoopの使用法の多くは、大規模なログファイルセットの処理によく使用されます。

  1. Rackspaceメールログクエリ
  2. Pigを使用したApacheログ分析-Clouderaブログを参照
  3. Yahoo! スパムと戦う

ルックスの素敵な私が見ているよ:-)
アントワーヌBenkemoun

1

最初にhadoopは、OLAP環境の大量のデータセット用に開発されました。

hadoopの上にHbaseを導入すると、caneはOLAP処理にも使用できます。Hadoopは、map reduce、hdfs、hbase、pigなどのすべてのサブコンポーネントを備えたフレームワークです。

Ifoundの1つに、なぜHadoopのhadoopの基本的な記事が紹介されています。

Hadoopでは、テーブル、列ではなくファイル形式のデータストレージ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.