データサイエンティストになるには、Hadoopを学ぶ必要がありますか？

38

ここで意欲的なデータサイエンティスト。Hadoopについては何も知りませんが、データサイエンスとビッグデータについて読んでいると、Hadoopについて多くの話があります。データサイエンティストになるためには、Hadoopを学ぶことが絶対に必要ですか？

bigdata apache-hadoop

— ペンス
ソース

1

このクラスの質問は、メタで議論されています。このメタ投稿で

— アヒーシュ14年

絶対に必要というわけではありません。これは単なるツールの1つです。必要なのは、統計と線形代数の理解です。ツールの選択は二次的です。

— ビクター

この無料の電子書籍を見て、あなたの質問に答えようとします。oreilly.com/data/free/files/analyzing-the-analyzers.pdf

— Espanta

IBM Watson Analytics、GoogleのBigquery、およびその他のクラウドベースの分析についても同様の質問がありますが、このテクノロジーはHadoopとスパークよりも優れています.....ビッグデータ分析を行う

47

さまざまな人々がさまざまなことにさまざまなツールを使用しています。データサイエンスのような用語は、一般的な理由によります。データサイエンティストは、hadoopなどの特定のツールを学ぶ必要なく、キャリア全体を過ごすことができます。Hadoopは広く使用されていますが、大規模なデータであっても、データを管理および操作できるプラットフォームはこれだけではありません。

データサイエンティストはMapReduce、分散システム、分散ファイルシステムなどの概念に精通している必要があると思いますが、そのようなことを知らない人を判断するつもりはありません。

それは大きな分野です。知識の海があり、ほとんどの人は一滴で専門家になることができます。科学者になるための鍵は、学びたいという欲求と、あなたがまだ知らないことを知る動機を持つことです。

例として、10年にわたって特定のクラスの教室のパフォーマンスに関する情報を含む100個の構造化CSVファイルを適切な人物に渡すことができます。データサイエンティストは、計算を複数のマシンに分散させることなく、1年かけてデータから洞察を収集することができます。機械学習アルゴリズムを適用し、視覚化を使用して分析し、地域、民族構成、経時的な環境の変化、政治情報、天気パターンなどに関する外部データと組み合わせることができます。それはすべて私の意見では「データサイエンス」です。学んだことをすべてテストして、教室だけでなく学生の国全体を構成するデータに適用するには、hadoopのようなものが必要かもしれませんが、その最後のステップは必ずしも誰かをデータサイエンティストにするわけではありません。

— スティーブカレスタッド
ソース

10

元のHadoopエンジニアとしては必要ありませんが、役立ちます。Hadoopは1つのシステムにすぎません。Javaに基づく最も一般的なシステムと、特定の手法「Map / Reduce」を適用して結果をタイムリーに取得する製品のエコシステムです。GoogleではHadoopを使用していませんが、ビッグデータ分析を使用していることを保証します。Googleは、C ++で開発された独自のシステムを使用しています。実際、Hadoopは、GoogleがMap / ReduceおよびBigTable（HBaseのHBase）ホワイトペーパーを公開した結果として作成されました。

データサイエンティストはhadoopエンジニアと連携しますが、小さな場所では両方の帽子を着用する必要があります。厳密にデータサイエンティストである場合、アナリティクス、R、Excel、Tableauなどに使用するものはすべて小さなサブセットでのみ動作し、hadoopを含む完全なデータセットに対して実行するように変換する必要があります。

— user9170
ソース

8

最初に、「Hadoopを学習する」という意味を明確にする必要があります。MapReduceでのプログラミングの学習など、Hadoopを使用することを意味する場合、おそらくそれは良い考えです。しかし、時間が経つにつれて基本的な知識（データベース、機械学習、統計）が大きな役割を果たす可能性があります。

— ギリム
ソース

どうやらほとんどの人が分析にHadoopを使用しているようです。私が考えているのは、そのような何かが必要ですか、データベース、ML、統計に関する知識で十分ですか？

— ペンス14年

5

はい、問題をデータ並列問題として分析できるプラットフォームを学習する必要があります。Hadoopは1つです。単純なニーズ（カウント、集計、フィルタリングなどの設計パターン）にはHadoopが必要であり、ベイジアン、SVMの実行などのより複雑な機械学習の場合は、問題を解決するためにHadoop（Now Apache Spark）が必要なMahoutが必要ですデータ並列アプローチ。

そのため、Hadoopは、学習するのに適したプラットフォームであり、バッチ処理のニーズにとって本当に重要です。Hadoopだけでなく、Spark（MahoutはSparkを利用したアルゴリズムを実行します）とTwitter Storm（リアルタイム分析のニーズに対応）についても知る必要があります。このリストは継続して進化するため、ビルディングブロック（分散コンピューティング、データ並列問題など）に精通しており、そのようなプラットフォーム（Hadoopなど）がどのように動作するかを知っている場合は、他のプラットフォームをすぐに理解できます。

— ヤヴァル
ソース

4

作業している環境/会社に大きく依存します。私の目には「ビッグデータ」の誇大広告があり、多くの企業がhadoopベースのソリューションで分野に参入しようとしています。

私の考えでは、優れたデータサイエンティストは正しい質問をし、本当に必要なことが明確になるまで再度質問を続けることができるはずです。優れたデータサイエンティストより-もちろん-問題に対処する方法を知る必要があります（少なくとも、できる人を知る必要があります）。さもないと、利害関係者はイライラする可能性があります:-)

だから、Hadoopを学ぶために絶対に必要というわけではないと思います。

— PlagTag
ソース

2

：あなたがデータ科学者としての仕事にしたい場合は、Hadoopのを学ぶ必要がありますが、多分Hadoopの始まる前に、あなたはETLやビッグデータについて何かを読んでください...この本は、出発点は良いかもしれないhttp://www.amazon.com / Big-Data-Principles-practices-scalable / dp / 1617290343

それがお役に立てば幸いです！

— ジャサンチェス
ソース

2

1台のマシン上のデータにデータサイエンスの手法を適用できるため、OPが言い表したとおり、質問に対する答えは「いいえ」です。

— 伊江尾w
ソース

1

データサイエンスは、さまざまなスキルを必要とする分野です。Hadoopの知識を持つこともその1つです。データサイエンティストの主なタスクは次のとおりです。

さまざまなリソースからデータを収集します。
データのクリーニングと前処理。
データの統計的性質を研究する。
機械学習技術を使用して予測を行い、データから洞察を引き出します。
わかりやすい方法で意思決定者に結果を伝えます。

上記のポイントのうち、Hadoopの知識はポイント1、2、および3に役立ちますが、データサイエンスの分野で働くには、数学/統計の強力な背景と計算技術の強力な知識も必要です。また、Hadoopは、データサイエンスで使用されている唯一のフレームワークではありません。ビッグデータエコシステムには、特定のユースケースに固有のさまざまなフレームワークがあります。この記事では、データサイエンスで使用できる主要なビッグデータフレームワークに関する入門資料を提供します。

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

— ラジーエフ・シン
ソース

1

Leaning Hadoopフレームワーク（ハードウェイ）は、データサイエンティストであるための要件ではないと思います。すべてのビッグデータプラットフォームに関する一般的な知識が不可欠です。私はそれに関する概念を知ることをお勧めしますが、Hadoopに必要なのはMapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.htmlだけです。

データサイエンティストはクラスターを構築せず、管理します...データで「魔法」を作るだけで、どこから来たのかは気にしません。「Hadoop」という用語は、上記のベースモジュールだけでなく、「エコシステム」、またはApache Pig、Apache Hive、 Apache HBase、Apache Sparkなど。

最も重要なのは、データを操作するためのプログラミング言語、数学、統計です（データに接続して前進する方法を見つける必要があります）。誰かに概念を教えてもらい、フレームワークの学習やスクラッチノードとクラスターからの構築に何週間も費やさないようにしたいと思います。その部分はデータエンジニアやデータサイエンティストではなく管理者の役割です。また、一つのこと：すべてが変化し進化していますが、数学、プログラミング、統計は依然として要件です。

PROC Hadoop、Hive、SparkContext、またはその他のドライバーまたはパイプなど、hdfsからデータにアクセスすることが不可欠です（hadoopをデータまたはストレージへのアクセスポイントとして扱います）

リソースの割り当てと管理、パフォーマンスを処理するツールまたはフレームワークが既に配置されています。

— n1tk
ソース