ここで意欲的なデータサイエンティスト。Hadoopについては何も知りませんが、データサイエンスとビッグデータについて読んでいると、Hadoopについて多くの話があります。データサイエンティストになるためには、Hadoopを学ぶことが絶対に必要ですか?
ここで意欲的なデータサイエンティスト。Hadoopについては何も知りませんが、データサイエンスとビッグデータについて読んでいると、Hadoopについて多くの話があります。データサイエンティストになるためには、Hadoopを学ぶことが絶対に必要ですか?
回答:
さまざまな人々がさまざまなことにさまざまなツールを使用しています。データサイエンスのような用語は、一般的な理由によります。データサイエンティストは、hadoopなどの特定のツールを学ぶ必要なく、キャリア全体を過ごすことができます。Hadoopは広く使用されていますが、大規模なデータであっても、データを管理および操作できるプラットフォームはこれだけではありません。
データサイエンティストはMapReduce、分散システム、分散ファイルシステムなどの概念に精通している必要があると思いますが、そのようなことを知らない人を判断するつもりはありません。
それは大きな分野です。知識の海があり、ほとんどの人は一滴で専門家になることができます。科学者になるための鍵は、学びたいという欲求と、あなたがまだ知らないことを知る動機を持つことです。
例として、10年にわたって特定のクラスの教室のパフォーマンスに関する情報を含む100個の構造化CSVファイルを適切な人物に渡すことができます。データサイエンティストは、計算を複数のマシンに分散させることなく、1年かけてデータから洞察を収集することができます。機械学習アルゴリズムを適用し、視覚化を使用して分析し、地域、民族構成、経時的な環境の変化、政治情報、天気パターンなどに関する外部データと組み合わせることができます。それはすべて私の意見では「データサイエンス」です。学んだことをすべてテストして、教室だけでなく学生の国全体を構成するデータに適用するには、hadoopのようなものが必要かもしれませんが、その最後のステップは必ずしも誰かをデータサイエンティストにするわけではありません。
元のHadoopエンジニアとしては必要ありませんが、役立ちます。Hadoopは1つのシステムにすぎません。Javaに基づく最も一般的なシステムと、特定の手法「Map / Reduce」を適用して結果をタイムリーに取得する製品のエコシステムです。GoogleではHadoopを使用していませんが、ビッグデータ分析を使用していることを保証します。Googleは、C ++で開発された独自のシステムを使用しています。実際、Hadoopは、GoogleがMap / ReduceおよびBigTable(HBaseのHBase)ホワイトペーパーを公開した結果として作成されました。
データサイエンティストはhadoopエンジニアと連携しますが、小さな場所では両方の帽子を着用する必要があります。厳密にデータサイエンティストである場合、アナリティクス、R、Excel、Tableauなどに使用するものはすべて小さなサブセットでのみ動作し、hadoopを含む完全なデータセットに対して実行するように変換する必要があります。
はい、問題をデータ並列問題として分析できるプラットフォームを学習する必要があります。Hadoopは1つです。単純なニーズ(カウント、集計、フィルタリングなどの設計パターン)にはHadoopが必要であり、ベイジアン、SVMの実行などのより複雑な機械学習の場合は、問題を解決するためにHadoop(Now Apache Spark)が必要なMahoutが必要ですデータ並列アプローチ。
そのため、Hadoopは、学習するのに適したプラットフォームであり、バッチ処理のニーズにとって本当に重要です。Hadoopだけでなく、Spark(MahoutはSparkを利用したアルゴリズムを実行します)とTwitter Storm(リアルタイム分析のニーズに対応)についても知る必要があります。このリストは継続して進化するため、ビルディングブロック(分散コンピューティング、データ並列問題など)に精通しており、そのようなプラットフォーム(Hadoopなど)がどのように動作するかを知っている場合は、他のプラットフォームをすぐに理解できます。
:あなたがデータ科学者としての仕事にしたい場合は、Hadoopのを学ぶ必要がありますが、多分Hadoopの始まる前に、あなたはETLやビッグデータについて何かを読んでください...この本は、出発点は良いかもしれないhttp://www.amazon.com / Big-Data-Principles-practices-scalable / dp / 1617290343
それがお役に立てば幸いです!
データサイエンスは、さまざまなスキルを必要とする分野です。Hadoopの知識を持つこともその1つです。データサイエンティストの主なタスクは次のとおりです。
上記のポイントのうち、Hadoopの知識はポイント1、2、および3に役立ちますが、データサイエンスの分野で働くには、数学/統計の強力な背景と計算技術の強力な知識も必要です。また、Hadoopは、データサイエンスで使用されている唯一のフレームワークではありません。ビッグデータエコシステムには、特定のユースケースに固有のさまざまなフレームワークがあります。この記事では、データサイエンスで使用できる主要なビッグデータフレームワークに関する入門資料を提供します。
http://www.codophile.com/big-data-frameworks-every-programmer-should-know/
Leaning Hadoopフレームワーク(ハードウェイ)は、データサイエンティストであるための要件ではないと思います。すべてのビッグデータプラットフォームに関する一般的な知識が不可欠です。私はそれに関する概念を知ることをお勧めしますが、Hadoopに必要なのはMapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.htmlだけです。
データサイエンティストはクラスターを構築せず、管理します...データで「魔法」を作るだけで、どこから来たのかは気にしません。「Hadoop」という用語は、上記のベースモジュールだけでなく、「エコシステム」、またはApache Pig、Apache Hive、 Apache HBase、Apache Sparkなど。
最も重要なのは、データを操作するためのプログラミング言語、数学、統計です(データに接続して前進する方法を見つける必要があります)。誰かに概念を教えてもらい、フレームワークの学習やスクラッチノードとクラスターからの構築に何週間も費やさないようにしたいと思います。その部分はデータエンジニアやデータサイエンティストではなく管理者の役割です。また、一つのこと:すべてが変化し進化していますが、数学、プログラミング、統計は依然として要件です。
PROC Hadoop、Hive、SparkContext、またはその他のドライバーまたはパイプなど、hdfsからデータにアクセスすることが不可欠です(hadoopをデータまたはストレージへのアクセスポイントとして扱います)
リソースの割り当てと管理、パフォーマンスを処理するツールまたはフレームワークが既に配置されています。