それらは新しいので、用語は曖昧です
「データサイエンス」分野での就職活動の最中に、ここで2つのことが行われていると思います。まず、ジョブは新しいものであり、さまざまな用語の定義が定められていないため、用語とジョブの説明の一致について一般的に合意されていません。これを「Web開発者」または「バックエンド開発者」と比較してください。これらは2つの類似した仕事であり、合理的に十分に同意され、明確な説明があります。
第二に、就職活動や最初の面接を行う多くの人々は、彼らが何のために雇っているのかをよく知らない。これは特に、リクルーターを雇って応募者を見つける中小企業の場合に当てはまります。CareerBuilderまたは任意のフォーラムにジョブの説明を投稿しているのはこれらの仲介者です。これは、彼らの多くが自分のことを知らないということではありません。彼らの多くは、彼らが代表する企業や職場の要件について十分な知識を持っています。しかし、異なる特定の職種を説明する明確な用語がないと、曖昧な役職がしばしば結果になります。
分野には3つの一般的な区分があります
私の経験では、データサイエンスの「ジョブスペース」には3つの一般的な区分があります。
1つ目は、データサイエンスを可能にする数学的および計算技術の開発です。これには、新しい機械学習手法の統計的研究、これらの手法の実装、これらの手法を現実世界で使用するための計算インフラストラクチャの構築などが含まれます。これは、顧客から最も離れた部門であり、最小の部門です。この作業の多くは、大企業(Google、Facebookなど)の学者または研究者によって行われています。これは、GoogleのTensorFlow、IBMのSPSSニューラルネット、または次の大規模なグラフデータベースの開発などに使用されます。
2番目の部門では、基礎となるツールを使用してアプリケーション固有のパッケージを作成し、実行する必要のあるデータ分析を実行します。PythonやRなどを使用して、あるデータセットの分析機能を構築するために雇用されています。私の経験では、この作業の多くは「データランドリー」を行い、あらゆる形式の生データを使用可能なものに変換します。この作業のもう1つの大きな部分は、データベース化です。必要なタイムラインでアクセスできる方法でデータを保存する方法を考えます。この仕事はツールを必要とせず、既存のデータベース、統計、グラフィカル分析ライブラリを使用して結果を生成します。
3番目の部門は、新しく編成されたアクセス可能なデータから分析を作成しています。これは、組織に応じて最も顧客に接する側です。ビジネスリーダーが意思決定に使用できる分析を作成する必要があります。これは、3つの部門の中で最も技術的なものではありません。データサイエンスはまだ始まったばかりなので、多くの仕事はこの時点で2番目と3番目の部門のハイブリッドです。しかし、将来的には、これら2つの仕事の間に、よりクリーンな区分が存在することを強く疑います。人々は、技術、コンピューターサイエンス、または統計に基づいた教育を必要とする2番目の仕事を獲得し、この3番目の仕事は一般教育のみを必要とします。
一般に、3人全員が自分を「データサイエンティスト」と表現できますが、最初の2人だけが自分を「機械学習エンジニア」と合理的に説明できます。
結論
当分の間、あなたはそれぞれの仕事が何を伴うか自分自身を見つけなければなりません。私の現在の仕事は、機械学習を行うために「アナリスト」として雇われました。しかし、仕事に取り掛かると、会社のデータベースが不十分であることが明らかになり、今ではおそらく私の時間の90%がデータベースの作業に費やされています。私の機械学習の露出は、scikit-learnパッケージが最も適切と思われるものをすばやく実行し、csvファイルを第3部門のアナリストに送信して、顧客向けのパワーポイントプレゼンテーションを作成しています。
フィールドは流動的です。多くの組織は、プロセスにデータサイエンスの意思決定を追加しようとしていますが、それが何を意味するのかを明確に理解していません。彼らのせいではなく、未来を予測するのはかなり難しく、新しいテクノロジーの影響は決して明確ではありません。分野がより確立されるまで、多くの仕事自体は、それらを説明するために使用される用語と同じくらい曖昧です。
Data scientist
machine learning engineer
より具体的であるが、実際の仕事が何であるかについてほとんど明確でない指定のように聞こえます。最初のケースでは、会社がターゲットを提供し、使用するアプローチ(機械学習、画像処理、ニューラルネットワーク、ファジーロジックなど)を把握する必要があります。2番目のケースでは、あなたの会社はすでにどのアプローチを使用する必要があるかを絞り込んでいます。