データサイエンティストとは何ですか?


181

最近、統計学の博士課程を卒業してから、ここ数か月間、統計学の分野で仕事を探し始めました。私が検討したほとんどすべての会社には、「データサイエンティスト」という肩書きを持つ求人がありました。実際、統計学者統計学者の役職を見る日々はもうなくなったように感じました。データ科学者であることは、統計学者であることを本当に置き換えたのか、それともタイトルが同義語だったのだろうか?

まあ、仕事の資格のほとんどは、統計学者の肩書きの下で資格があるもののように感じました。ほとんどのジョブは、統計学の博士号( checkmark)、実験計画( checkmark)、線形回帰とanova( checkmark )、一般化線形モデル( checkmark )、およびPCA()などの他の多変量法の理解が最も必要でした、およびRやSASなどの統計コンピューティング環境に関する知識()。データサイエンティストのように思えますが、実際は統計学者の単なるコード名です。

しかし、私が行ったすべてのインタビューは、「機械学習アルゴリズムに精通していますか?」という質問から始まりました。多くの場合、ビッグデータ、高性能コンピューティング、ニューラルネットワーク、CART、サポートベクターマシン、ブースティングツリー、教師なしモデルなどのトピックに関する質問に答えなければならないことに気づきました。統計的な質問ですが、すべてのインタビューの終わりには、データサイエンティストが何であるかについてだんだんとわからなくなったような気分になります。

私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!また、データを扱うので、データサイエンティストでなければなりません!ウィキペディアによると、ほとんどの学者は私に同意するだろう(https://en.wikipedia.org/wiki/Data_science、など)

ビジネス環境では「データサイエンス」という用語が爆発的に使用されていますが、多くの学者やジャーナリストは、データサイエンスと統計を区別していません。

しかし、データサイエンティストの立場でこれらの就職面接をすべて行っているのに、なぜ彼らが私に統計的な質問をすることはないように感じるのでしょうか?

前回のインタビューの後、私は良い科学者にやってもらいたいと思ったので、この問題を解決するためにデータを探しました(やっぱり、私はデータ科学者です)。しかし、後で何度も無数のGoogle検索を行った後、データサイエンティストとは何かの定義に再び取り組んでいるかのように感じ始めたところです。それのように多くの定義は、(があったので、私は、データ科学者が正確に何であったか知らなかったhttp://blog.udacity.com/2014/11/data-science-job-skills.htmlHTTPを:// WWW -01.ibm.com/software/data/infosphere/data-scientist/)しかし、誰もが私が1人になりたいと言っていたようです:

結局のところ、「データサイエンティストとは何か」と答えたのは非常に難しい質問でした。ヘック、Amstatにはこの質問に答えようと時間を割いていた2か月がありました。

今のところ、私はデータサイエンティストになるためにセクシーな統計学者にならなければなりませんが、うまくいけば、相互検証されたコミュニティがいくらかの光を放ち、データサイエンティストになることの意味を理解できるようになるかもしれません。すべての統計学者はデータ科学者ではありませんか?


(編集/更新)

これは会話を盛り上げるかもしれないと思った。米国統計協会から、データサイエンティストを探しているMicrosoftの求人に関するメールを受け取りました。:ここにリンクされたデータ・サイエンティストポジション。ポジションの役割は私たちが話している多くの特定の特性に影響を与えるため、これは興味深いと思いますが、それらの多くは統計の非常に厳格な背景を必要とし、また以下に掲載された多くの答えと矛盾しています。リンクが機能しなくなった場合に、Microsoftがデータサイエンティストに求めている特性は次のとおりです。

コアジョブの要件とスキル:

Analyticsを使用したビジネスドメインエクスペリエンス

  • 大規模な実世界のビジネスデータセットで高度な分析を使用して、複雑なビジネス問題とそのソリューションを概念化するためのクリティカルシンキングスキルの活用に関するいくつかの関連ビジネスドメインでの経験が必要
  • 候補者は、独自に分析プロジェクトを実行し、社内クライアントが調査結果を理解し、ビジネスに利益をもたらす行動に変換できるようにする必要があります。

予測モデリング

  • 予測モデリングにおける業界全体の経験
  • 重要な関係を引き出し、システムスコープを定義するためのクライアントとのビジネス問題の定義および概念モデリング

統計/計量経済学

  • 連続データおよびカテゴリデータの探索的データ分析
  • 企業および消費者の行動、生産コスト、要因需要、個別の選択、および必要に応じたその他の技術関係の構造モデル方程式の仕様と推定
  • 連続データおよびカテゴリデータを分析するための高度な統計手法
  • 時系列分析と予測モデルの実装
  • 複数の変数の問題を扱う知識と経験
  • モデルの正確性を評価し、診断テストを実施する能力
  • 統計または経済モデルを解釈する能力
  • 個別のイベントシミュレーションと動的シミュレーションモデルの構築に関する知識と経験

データ管理

  • データ変換のためのT-SQLおよび分析の使用と、非常に大規模な実世界のデータセットに対する探索的データ分析手法の適用に関する知識
  • データの冗長性、データの正確性、異常値または極端な値、データの相互作用、欠損値などのデータ整合性への注意。

コミュニケーションとコラボレーションのスキル

  • 独立して作業し、困難なビジネス問題に対する革新的なソリューションを研究する仮想プロジェクトチームと連携できる
  • パートナーとのコラボレーション、批判的思考スキルの適用、分析プロジェクトのエンドツーエンドの推進
  • 口頭および書面による優れたコミュニケーション能力
  • 多様な利害関係者のセットが消費できる形式での分析結果の視覚化

ソフトウェアパッケージ

  • 高度な統計/計量ソフトウェアパッケージ:Python、R、JMP、SAS、Eviews、SAS Enterprise Miner
  • データ探索、視覚化、管理:T-SQL、Excel、PowerBI、および同等のツール

資格:

  • 5年以上の関連経験が必要
  • 量的分野の大学院卒が望ましい。

6
いい質問です!私は最近このことについてかなり不思議に思っています。私の目では、説明にデータサイエンティストを含む仕事は、必ずしも理論に対処できる人ではなく、うまくスケールする統計/ ML法を適用できる人を探しているようです。私はまだこれらの職務記述書にいくらかの冗長性があると思います。博士号を取得することは、おそらく過剰な資格であることが多く、これらの職務記述書を作成する人事担当者は、ビッグデータに関する話題の影響を大きく受けています。データサイエンティストであるか、統計学者であるか、またはその逆は、私が答えを知りたい主な質問です。
グメオ

4
これは統計学者であることとデータ科学者であるという文化のこのような変化に対処する優れた論文だと思います:projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
「しかし、もしデータサイエンティストの立場のためにこれらすべての就職面接を行っているなら、なぜ彼らが私に統計的な質問をすることは決してないように感じるのか」データサイエンス、統計、計量経済学、バイオスタットなど。かなりの重複がありますが、すべて異なる用語を使用しているため、コミュニケーションが難しくなります(特に、知識がなくキーワードに焦点を当てている人事担当者からインタビューを受けている場合)。願わくば、学際的な取り組みを増やし、将来必要とされるオープンマインドがこれを変えるでしょう。
ザカリーブルーメンフェルド

9
2008年ごろに主流になって以来、「データサイエンティストの台頭」を追ってきました。私にとっては、誇大宣伝の原動力となったマーケティング用語です。強調の異なる同じ。G.ボックスの言い換え:「あなたはベイジアン、フリークエンシー、データアナリスト、実験の設計者、データサイエンティストですか?」などの質問をした場合 イエスと言う"。
モモ

10
@Momo:それでも、「機械学習」(または類似)と呼ばれる600ページ以上の教科書と「統計」(または類似)と呼ばれる教科書の1つを開いた場合、重複はほとんどありません。私のBishopのパターン認識と機械学習、またはMurphyの機械学習、ポイント推定のリーマン&カセラ理論、カセラ&バーガー統計的推論、またはマックスウェル&デラニーの設計実験とデータ分析とほとんど交差していません。それらは非常に異なっているので、1冊の本に精通している人は他の本を読むのに苦労するかもしれません。
アメーバ

回答:


52

まだ説明されていないユーモラスな定義がいくつかあります。

データサイエンティスト:Macで統計を行う人。

これは、物質よりも誇張された角度でうまく機能するので気に入っています。

データサイエンティスト:サンフランシスコに住む統計学者。

同様に、これはこれらすべての西海岸の味をリフします。

個人的には、議論は(一般的に、そしてここで)幾分退屈で反復的だと思います。私が何を望んでいたかを考えていたとき、おそらく四半世紀以上前に、私は量的分析を目指しました。それは今でも私がしていることであり(そして大好きです!)、それはほとんど重複しており、さまざまな答えでここで与えられたものをカバーしています。

(注:引用2の古いソースがありますが、今は見つかりません。)


27
+1。I find the discussion (in general, and here) somewhat boring and repetitive些細なことや新しい話題の言葉の無駄な話、私は追加します。その後、データサイエンティスト、クリスチャンサイエンティスト、データサイエントロジストを区別することはできません。
ttnphns

1
LOL @データサイエントロジスト。
-dsaxton

4
そして、私はちょうど来て、投票し、理由を残さなかった(もちろん匿名の)非常に深刻な人に私の帽子を傾けます。ヒント:議論が改善されるわけではありません。
ダークエデルビュッテル16

1
サウスサンフランシスコの統計学者であり、データサイエンティストというタイトルと非常に積極的に戦っています。
クリフAB

1
(+1)@CliffAB私は実際に南サンフランシスコの統計学者でもあります。
RustyStatistician

87

人々はデータサイエンスの定義を変えていますが、共通点は次のとおりだと思います。

  • データの取り扱い方法に関する実践的な知識、
  • 実用的なプログラミングスキル。

その名前に反して、めったに「科学」ではありません。つまり、データサイエンスでは、証明、数学的純度、または学術科学に特有の厳密さではなく、実用的な結果(エンジニアリングなど)に重点が置かれます。物事は機能する必要があり、学術論文、既存のライブラリの使用、独自のコード、または即興のハックに基づいている場合、ほとんど違いはありません。

統計学者はプログラマーである必要はありません(ペンと紙と専用ソフトウェアを使用する場合があります)。また、データサイエンスの一部のジョブコールは、統計とは関係ありません。たとえば、ビッグデータの処理のようなデータエンジニアリングです。たとえ高度な数学が平均を計算している場合でも(個人的には、このアクティビティを "データサイエンス"とは呼びません)。さらに、「データサイエンス」は誇大宣伝されているため、接線方向に関連する仕事ではこのタイトルを使用します。

私は、Quoraに関するMichael Hochsterの答えからの分類法が好きです:

タイプAデータサイエンティスト:Aは分析用です。このタイプは主に、データの意味を理解するか、かなり静的な方法でデータを操作することに関係しています。タイプAデータサイエンティストは統計学者と非常によく似ていますが(1人でもかまいません)、統計のカリキュラムで教えられていないデータの操作に関する実用的な詳細をすべて知っています。 、特定のドメインに関する深い知識、データについての詳細な記述など。

タイプBデータサイエンティスト:Bは構築用です。タイプBデータサイエンティストは、タイプAと統計的な背景を共有しますが、非常に強力なコーダーであり、ソフトウェアエンジニアの訓練を受けている場合もあります。タイプBデータサイエンティストは主に「生産中」のデータの使用に関心があります。彼らはユーザーと対話するモデルを構築し、多くの場合、推奨事項(製品、知り合いの人、広告、映画、検索結果)を提供します。

その意味で、タイプAデータサイエンティストはプログラミングが可能な統計学者です。しかし、定量的な部分であっても、通常の統計よりもコンピューターサイエンス(機械学習など)のバックグラウンドを持つ人や、データの視覚化などに焦点を当てている人がいるかもしれません。

そして、データサイエンスベン図(ここで:ハッキング〜プログラミング):

データサイエンスベン図

代替ベン図(this and that)も参照してください。あるいは、ユーモラスなツイートでさえもデータサイエンティストの典型的なスキルと活動のバランスの取れたリストを示します。

データサイエンティストは

こちらの記事もご覧ください:データサイエンティスト-統計学者、プログラマー、コンサルタント、ビジュアライザー?


14
ツイートが好きです。彼はピザの焼き方、エコロジー野菜の栽培方法、詩の書き方、サルサの踊り方も知っておくべきだと付け加えたいと思います:)
ティム

3
マイナーなquiめ言葉:すべての「科学」が「証明または数学的純度」に重点を置いているわけではありません。例えば生物学を考えてください。
アメーバ

2
p値をハックするとはどういう意味ですか?だれか(クライアント)が指定されたp値ターゲットを持ち、データ科学者がp値ターゲットを達成できるようにデータを切り刻むことになっているように思えます。それとも、何か違うことを意味するはずですか?
エモリー

2
@amoryこのツイートは(それはから段落のpastisheだhumoristicあるen.wikiquote.org/wiki/Time_Enough_for_Love、「人間は、[リスト]にできるはずです。専門は昆虫のためです。」)。「p値をハックする」ことは確かに暗い習慣であり(悲しいことに、いくつかの学問分野で一般的です)、(私は願っています)冗談としてここにいます。
ピョートルミグダル

4
巨大なデータセットの単純な「統計」を計算するデータサイエンティストとは呼ばないという発言に対して+1。私たちはクラスターコンピューティング(Hadoopなど)に特化したコンピューターサイエンティストが「データサイエンティスト」とラベル付けされたデータサイエンスの段階から抜け出していると思います。これらのスキルを軽視しているわけではありませんが、統計/推論/調査のスキルほど重要ではなく、テクノロジーはmap-reduceを超えています。
ウェイン

42

データサイエンス分野の調査は数多くあります。実際にデータサイエンスの仕事を持っている人のプロファイルを分析しようとするため、私はこれが好きです。事例証拠や著者のバイアスを使用する代わりに、データサイエンス技術を使用してデータサイエンティストのDNAを分析します。

データサイエンティストがリストしたスキルを見ると、明らかになります。トップ20のスキルには多くのITスキルが含まれていることに注意してください。

今日の世界では、データサイエンティストはあらゆる取引のジャックになることが期待されています。確かな定量的基盤、プログラミングの適性、無限の知的好奇心、優れたコミュニケーションスキルを備えた自己学習者。

ここに画像の説明を入力してください

更新:

私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!

あなたが博士号を取得している場合、特に論文や積極的な研究を発表している場合は、すでに科学者である可能性が高いでしょう。ただし、データサイエンティストになるために科学者である必要はありません。ウォルマート(以下を参照)のようにPhDが必要ないくつかの企業にはいくつかの役割がありますが、通常、データサイエンティストは以下の例からわかるようにBSとMSの学位を持っています。

上記のチャートから理解できるように、ほとんどの場合、優れたプログラミングおよびデータ処理スキルが必要になります。また、多くの場合、データサイエンスは、機械学習の専門知識のあるレベル(多くの場合「深い」)に関連付けられています。統計学の博士号をお持ちの場合は、確かに自分自身をデータサイエンティストと呼ぶことができます。しかし、トップスクールのコンピューターサイエンスの博士号は、統計学の卒業生よりも競争力があります。なぜなら、彼らは、強力なプログラミングスキルによって補完される非常に強力な応用統計知識を持っているからです。それらに対抗するには、強力なプログラミングスキルを習得する必要があるため、バランスをとると非常に競争力が高くなります。興味深いのは、通常、すべての統計博士がある程度のプログラミング経験を持っていることですが、データサイエンスでは多くの場合、要件はそれよりもはるかに高く、

私にとって統計学の博士号を持つことの利点は、「すべての取引のジャック」というフレーズの残りの部分で捕捉される問題にあります。すべてのことを少しでも知っている人がいるのは良いことですが、それが統計であろうとコンピュータサイエンスであろうと、それほど重要ではないかどうかにかかわらず、私は常に何かを深く知っている人を探しています。重要なのは、その男が最下位に到達できることです。必要なときに便利な品質です。

この調査では、データサイエンティストのトップ雇用者もリストしています。どうやらマイクロソフトがトップにいますが、それは私にとって驚くべきことでした。彼らが探しているものをより良く知りたいなら、ジョブセクションで「データサイエンス」でLinkeInを検索することは役に立ちます。以下に、MSからの2つの抜粋と、LinkedInでのWalmartの仕事の要点を示します。

  • マイクロソフトデータサイエンティスト

    • データ処理システム/サービスの構築における5年以上のソフトウェア開発経験
    • 統計、データマイニングまたは機械学習を専門とするコンピューターサイエンス、EE、または数学の学士号またはそれ以上の資格。
    • 大規模なデータを操作する優れたプログラミングスキル(C#、Java、Pythonなど)
    • Hadoopまたはその他のビッグデータ処理技術の実務知識
    • 分析製品(R、SQL AS、SAS、Mahoutなど)の知識があれば尚可。

statパッケージを知っていることはプラスになりますが、Javaでの優れたプログラミングスキルは必須です。

  • ウォルマート、データサイエンティスト

    • コンピュータサイエンスまたは同様の分野の博士号、または2〜5年以上の関連経験を持つMS
    • C ++またはJavaの優れた関数型コーディングスキル(Javaを強く推奨)
    • C ++ / Java / Hadoop / Hiveのいずれかで本番コードを記述するために最大10%の1日作業時間を費やすことができる必要があります。
    • PythonやPerlなどのスクリプト言語のいずれかの専門家レベルの知識。
    • 大規模なデータセットと分散コンピューティングツールの使用経験がある方(Map / Reduce、Hadoop、Hive、Sparkなど)

ここでは、博士号が優先されますが、コンピュータサイエンス専攻のみが命名されます。HadoopまたはSparkを使用した分散コンピューティングは、おそらく統計学者にとっては珍しいスキルですが、一部の理論物理学者および応用数学者は同様のツールを使用します。

更新2:

「もうすぐ「データサイエンティスト」の称号をやめる時です」と、2012年のハーバードビジネスレビューの記事「Data Scientist:The Sexiest Job of the 21st Century」を執筆したThomas Davenport氏は、データサイエンティストの大流行を開始したと述べています。

あなたが「データサイエンティスト」である、またはなりたい、または雇いたい、と言うのは今日どういう意味ですか?


3
データを使用し、優れたデータ駆動型レポートにリンクするための+1。しかし、スクリーンショットにはWebブラウザインターフェイスが必要ですか?
ピョートルミグダル

@PiotrMigdal、私は収穫するか、怠け者になるのをやめることを学ぶべきです
-Aksakal

4
私はあなたのためにそれを切り取りました。
アメーバ

1
今日の更新後、私はダウン票を投じたいと思っています。このスレッドはすでに非常に忙しく、スクロールするための膨大な引用の壁があることは私の意見ではあまり役に立ちません...おそらくリンク+簡単な要約で十分でしょうか?
アメーバ

1
@amoeba、リストを削除しました。それは公正なコメントだ
Aksakal

39

どこかで私はこれを読んだ(編集:ジョシュウィルは彼のツイートを説明しています):

データサイエンティストは、どのプログラマよりも統計が優れていて、どの統計よりもプログラミングが優れている人です。

この引用は、このデータサイエンスプロセスによって簡単に説明できます。このスキームの最初の見方は「プログラミング部分はどこですか?」のように見えますが、大量のデータがある場合は、それらを処理できる必要があります。


11
おそらく、統計学者であるすべてのR貢献者はデータ科学者ですか?;)
ティム

15
うわー、私はちょうどこの質問について疑問に思って(データサイエンスがあると考えて)サイトを散歩していましたが、その後、フリッキンのウィキペディアページがあることを学びますか?それは私にとってはニュースでした...そして、統計ではなく、計量経済学で訓練した価値があるのですが、20年以上にわたって「クオント」として働いてきました。つまり効果的に ...データ科学と同じ
ダークEddelbuettel

3
-1。私は引用が好きではないからといって(それはとにかくほおの舌だったのではないか)、特にここでの他の多くの答えと比べて、答えが短すぎて実質的ではないから、私は投票します。何らかの形で拡張しない限り、コメントに変換することをお勧めします。
アメーバ

3
ここに著者のジョシュ・ウィルズによるこの引用の説明があります。引用後の最初の3つの段落は、この議論に非常に関係があります。
アメーバ

3
@amoeba:ジョシュ・ウィルズの記事はこれまで好きでした。それは主に計算です」。また、統計学者にうまくプログラムする方法よりも、CSの人々に高度な統計学を教える方が簡単だという彼には同意しません(ほとんどの統計学者はひどいプログラマーであることに同意します)。
クリフAB

15

私はいくつかの答えを書きました、そして、彼らが長くなるたびに、私は最終的に私が石鹸箱で起きていると決めました。しかし、この会話では2つの重要な要素を完全に探求していないと思います。

  1. 科学データサイエンスインチ 科学的アプローチとは、自分のモデル、理論、機能、技術の選択などを破壊しようとするアプローチであり、それができない場合にのみ、結果が役立つ可能性があることを受け入れます。それは考え方であり、私が出会った最高のデータサイエンティストの多くは、ハードサイエンスのバックグラウンド(化学、生物学、工学)を持っています。

  2. データサイエンスは幅広い分野です。通常、優れたデータサイエンスの成果には、それぞれが専門のデータサイエンティストの小さなチームが含まれます。たとえば、あるチームメンバーはより厳密で統計的であり、別のメンバーはエンジニアリングのバックグラウンドを持つ優れたプログラマーであり、別のメンバーはビジネスに精通した強力なコンサルタントです。3つすべてが主題をすばやく習得し、3つとも好奇心が強く、真実を見つけることを望んでいますが、それでも苦痛はありますが、(内部または外部の)顧客にとって最大の利益になることを行いたいのです。わかります。

過去数年間の流行-現在は衰退していると思う-は、クラスターテクノロジー(Hadoopエコシステムなど)をマスターしたコンピューターサイエンティストを募集し、それが理想的なデータサイエンティストだと言うことです。私はそれがOPが遭遇したことだと思います、そして私はOPに厳密、正しさ、科学的思考における彼らの強みを押し進めるようアドバイスします。


@RustyStatistician:どういたしまして。私が働いているコンサルタントには博士号(工学、生物学、天文学、コンピューターサイエンス)がありますが、一般的な見方ではMS学位(多くの場合、アナリティクスでMSに戻った実務経験のある人)をスイートスポットとして追加します。そうは言っても、私が技術リーダーであるプロジェクトに現在参加している生物学博士号の同僚に毎日感謝しています。経済学のバックグラウンド(および分析のMS)を持つプロジェクトリーダーと共に、私たちは素晴らしいチームです!(私のMSは人工知能です。)
ウェイン

+1ですが、あなたの最初の箇条書きについては、[良い]データサイエンス科学あると言っています。もしそうなら、「データサイエンス」はそれ自体で「データ」を研究していないため、それは好奇心が強く、おそらく誤解を招く(?)用語です。特定のアプリケーションで関心のあるものは何でも、データを使用して他の何かを研究しています。対照的に、たとえば「政治学」は政治を研究することになっており、「神経科学」は名前が示すようにニューロンを研究している。
アメーバ

1
@amoeba:実際、私はデータサイエンティストがデータを理解し使用する方法の一部としてリチャード・ファインマンの科学的方法を使用しなければならないことを意味しました。(あなたが言うように、特定のアプリケーションを追求します。)それは仕事の統計学の部分です:「この変数は非常に重要なようです-それは未来からの漏れですか?」または「このモデルは理にかなっているようですが、モデル作成プロセス全体でCVを実行してから、その上でリサンプリングを行ってみましょう。」あなたのモデル/理論を反証するために一生懸命努力し、そうするために他の人を巻き込みます。「グリーンM&Mは癌を引き起こす」を受け入れない。
ウェイン

これまで「科学的方法」に言及しているのは、@ Wayneだけです。これはとても悲しい。
jgomo3

物理学、特にユニットの理解は、何かを理解しようとする人にとって必要です。しかし、私たちのこの勇敢な新しい世界では、「ゴブストッパー」として準最適な予測値を持つが、実際の解決策ではないヒューリスティックな観察を行うだけで十分な場合がよくあります。
カール

14

Bitwiseが私の答えのほとんどをカバーしていると思いますが、2cを追加します。

いいえ、すみませんが、少なくともほとんどの企業が今日の役割をどのように定義しているかに基づいて、統計学者はデータ科学者ではありません。定義は時間とともに変化していることに注意してください。実務家の課題の1つは、関連性を維持することです。

「データサイエンティスト」ロールの候補者を拒否する理由について、いくつかの一般的な理由を共有します。

  • ジョブの範囲に関する期待。通常、DSは独立して動作できる必要があります。つまり、彼に割り当てられた問題を解決するために、彼のためにデータセットを作成する人は誰もいません。そのため、彼はデータソースを見つけてクエリを実行し、ソリューションをモデル化してから、問題を解決するプロトタイプを作成できる必要があります。多くの場合、それは単にダッシュボード、アラーム、または常に更新されるライブレポートの作成です。
  • コミュニケーション。多くの統計学者は、アイデアを「単純化」してビジネスマンに「販売」するのに苦労しているようです。1つのグラフのみを表示し、部屋の全員が取得できる方法でデータからストーリーを伝えることができますか?これは、チャレンジされた場合に分析のあらゆる部分を防御できることを確認した後です。
  • コーディングスキル。開発者がいるため、プロダクションレベルのコーディングスキルは必要ありませんが、プロトタイプを作成し、それをAWS EC2インスタンスのWebサービスとしてデプロイできる必要があります。したがって、コーディングスキルは、Rスクリプトを記述する能力を意味するものではありません。おそらくここのどこかにLinuxの流encyさを加えることができます。そのため、ほとんどの統計学者が信じがちな水準よりも高い水準にあります。
  • SQLおよびデータベース。いいえ、彼は仕事でそれを拾うことができません。なぜなら、彼はすでに知っている基本的なSQLを適応させ、Redshift、HIVE、Prestoなどの組織全体で使用する複数の異なるDBシステムを照会する方法を学ぶ必要があるからです独自のSQLを使用しています。さらに、ジョブでSQLを学習することは、候補者が効率的なクエリの作成方法を学習するまで、他のすべてのアナリストに問題を引き起こすことを意味します。
  • 機械学習。通常、彼らは特定のデータセット(Kaggleスタイル)に基づいて問題を解決するためにロジスティック回帰または他のいくつかの手法を使用しました。ただし、インタビューはアルゴリズムと方法から始まりますが、すぐに機能生成(データセットを作成する必要があることを覚えておいてください、データセットを作成する他の人はいません)、保守性、スケーラビリティ、パフォーマンス、および関連するトピックに焦点を当てますトレードオフ。一部のコンテキストについては、NIPS 2015で公開されたGoogleの関連論文をご覧ください。
  • テキスト分析。必須ではありませんが、自然言語処理の経験がある方が良いでしょう。結局のところ、データの大部分はテキスト形式です。前述のように、MLやその他の統計的アプローチでテキストを消費できるようにするために、変換を行ってテキストをクリーンアップする人は誰もいません。また、今日、CS卒業生でさえ、このボックスにチェックマークを付けるプロジェクトをすでに完了していることに注意してください。

もちろん、ジュニアの役割の場合、上記のすべてを持つことはできません。しかし、これらのスキルのうち、どれだけ不足して仕事に就く余裕がありますか?

最後に、明確にするために、非統計学者を拒否する最も一般的な理由は、統計に関する基本的な知識すらもまったくないことです。そしてどこかで、データエンジニアとデータサイエンティストの間に違いがあります。それにもかかわらず、データエンジニアはこれらの役割を適用する傾向があります。なぜなら、多くの場合、「統計」は単なる平均、分散、正規分布であると考えているからです。そのため、「統計」の意味を明確にし、混乱を防ぐために、職務記述書に関連するが恐ろしい統計上の流行語をいくつか追加することがあります。


4
2006年以来、私は2つの大学で「ビジネス情報学」と呼ばれるプログラムで統計とデータ分析の応用コースを教えており、これは私の学生が学ぶものに100%適用されます。1.ビジネス、Web、調査などから実際の、おそらく面倒なデータを収集する必要があります。2.コースのSQLデータベースにデータをクリーンアップし、準備して保存します。3.データに対してさまざまな統計分析を行います。4. 1-2ページの短いエグゼクティブブリーフを準備し、リテラルプログラミング(knitrなど)で詳細なレポートを作成します。そのデータサイエンスから、追加の統計/ MLコースを備えたビジネスインフォマティクスがありますか?
モモ

4
もちろん、あなたのコースは必要なスキルの多くをカバーしています。私たちは多くの組み合わせを見つけることができると思います。たとえば、コンピューターサイエンスの学位といくつかの統計コース、ビジネスMLベースの問題に関する論文/インターンシップなどです。結局のところ、重要なのは、候補者がテーブルにもたらす関連するスキルの深さと幅です。
iliasfl

11

誇大広告や流行語を無視させてください。「データサイエンティスト」(またはあなたがそれを呼びたいもの)は本物であり、統計学者とは異なると思います。事実上、データサイエンティストであるがその名前が与えられていない多くのタイプの役職があります。1つの例は、ゲノミクスで働く人々です。

私が見ているように、データサイエンティストは、大量の複雑なデータ(たとえば、基礎となるメカニズムが不明で複雑な高次元)の研究を設計および実行するスキルと専門知識を持っている人です。

これの意味は:

  • プログラミング:分析とパイプラインを実装でき、多くの場合、ある程度の並列化が必要であり、データベースと高性能コンピューティングリソースとのインターフェイスが必要です。
  • コンピューターサイエンス(アルゴリズム):選択した分析が実行可能で、エラー率が制御されるように、効率的なアルゴリズムを設計/選択します。これには、数値解析、最適化などの知識も必要になる場合があります。
  • コンピューターサイエンス/統計(通常は機械学習を重視):データに関する質問をしたり、その中の「パターン」を見つけたりするためのフレームワークを設計および実装します。これには、さまざまなテスト/ツール/アルゴリズムの知識だけでなく、適切なホールドアウト、相互検証などの設計方法も含まれます。
  • モデリング:多くの場合、データのより単純な表現を提供するモデルを作成して、有用な予測を行い、データの基になるメカニズムを洞察できるようにします。これには確率モデルが非常に人気があります。
  • ドメイン固有の専門知識:複雑なデータを正常に処理するための重要な側面の1つは、ドメイン固有の洞察を取り入れることです。そのため、データサイエンティストがドメインの専門知識を持っているか、新しい分野をすばやく学ぶことができるか、データにアプローチする方法について有益な洞察を得ることができる分野の専門家とうまくやり取りできることが重要であると思います。 。

6
あなたの意見では、統計学者は誰ですか?このスキルのリストは、「統計学者」が持つべきスキルとどのように異なりますか?
アメーバ

4
@amoeba私は間違っているかもしれませんが、多くの統計学者はこれらのスキルの一部を持っていません(たとえば、大規模なデータセットを使用した大規模なプログラミング、コンピューターサイエンスの大学院レベルのトレーニング)。また、多くの場合、データサイエンティスト(理論の一部、一部のサブフィールド)にとっては、いくつかの統計スキルは無関係です。
ビット単位

4
@rocinante:「「大規模なデータセット」を使ったプログラミングが実際に妨げにならない」ことに強く反対します。サーバー上の受信パケットに基づいてリアルタイムの決定を行うソフトウェアを実装できる「統計学者」という肩書きを持つ人は誰も知らないと思います。確かに、すべてのデータサイエンティストが可能というわけではありませんが、その割合ははるかに高くなっています。
クリフAB

3
@rocinante統計の十分な理解は必要ですが、私の見解では十分ではありません。統計と他のスキルの深さ/難しさに関して、コンピューターサイエンスの側面を十分に理解することは、それ以上ではないにしても、深遠/難しさだと主張します。また、そのSEに関する質問については、SE(この質問を含む)でこれらの種類の質問を見つけます-それは何人かの人々が理解せずに簡単な解決策を望んでいること以外は何も意味しません。
ビット単位

6
これらの「データサイエンスと統計」の議論でうんざりすることの1つは、データサイエンティストが統計学者の優れた品種のような微妙な意味合いです。事実、あなたの知識の幅が広がるにつれて深さが下がり、「データサイエンティスト」になるために必要なすべてのタスクで無知よりも優れている人々の知識は、これらのほとんどの知識がかなり表面的な。一般に、これらの神話上のデータ科学者が習得したと人々が期待するドメインのいずれかの専門家になることさえ非常に困難です。
-dsaxton

7

すべての素晴らしい答えですが、私の就職活動の経験では、「データサイエンティスト」という用語は、私が接触していた採用担当者の心の中の「ジュニアデータアナリスト」と混同されていることに気付きました。このため、数年前に行った入門的な1学期コースを除いて、統計情報のない多くの優れた人々が、今ではデータサイエンティストと呼んでいます。コンピューターサイエンスのバックグラウンドとデータアナリストとしての長年の経験を持つ人として、私はキャリアの後半で統計学の博士号を取得し、群衆から目立つのに役立つだろうと考えました。 「。私は「統計学者」に戻るかもしれないと思います!


5
基本的に同じことがわかります。データの処理または分析を要求するジョブはすべて「データサイエンス」と呼ばれます。金融の「Quant」でも非常によく似たことが起こったと思います。そこでは、データを使って何らかの仕事をした人が自分自身を「Quant」と呼んでいました。
アカバール

6

私は後輩ですが、役職は「データサイエンティスト」です。Bitwiseの答えは、私が雇ったことの適切な説明だと思いますが、仕事での日々の経験に基づいて、もう1点追加したいと思います。

Data ScienceStatistics,
StatisticsData Science.

科学は探究のプロセスです。データがその問い合わせの手段である場合、データサイエンスが行われています。配線を実験または研究するすべての人が必ずしも電気技師であるとは限らないのと同じように、データを実験または研究するすべての人がデータ科学者であることを意味するわけではありません。しかし、プロの電気技師になるのに十分なトレーニングを取得できるのと同じように、プロの「データ照会者」になるのに十分なトレーニングを取得できることを意味します。そのトレーニングは多かれ少なかれBitwiseの答えのポイントで構成されており、その統計は全体ではなく構成要素です。

Piotrの答えは、特定の週にどのようにすればよいかを知りたいなら、がする必要があるすべてのことの素晴らしい要約でもあります。これまでの私の仕事は、主に、ベン図の「危険ゾーン」コンポーネントに属していた元従業員による損害を元に戻すのを助けることです。


2
+1。このスレッドでは、実際に「データサイエンティスト」として雇用されている人々から話を聞くことは非常に貴重だと思います。
アメーバ

(+1)@amoebaあなたの感情に100%同意します。
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@caveman私は間違いなく同意します。
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

最近、データサイエンスをキャリアとして興味を持つようになり、データサイエンスの仕事について学んだことを、私が受講した(そして楽しんだ)多数の統計コースと比較して考えると、データサイエンティストを次のように考えるようになりましたデータに注目したコンピューター科学者。特に、次の主な違いに注意しました。ただし、違いは気分に見えることに注意してください。以下は私の主観的な印象を反映したものであり、一般性を主張するものではありません。ちょうど私の印象!

  1. 統計では、分布、確率、推論手順(基礎となる分布である仮説検定の実行方法など)を重視します。私が理解していることから、データサイエンスは多くの場合予測に関するものであり、推論ステートメントに関する心配は、相互検証などのコンピューターサイエンスからの手順にある程度吸収されます。

  2. 統計コースでは、自分のデータを作成するか、かなりきれいな形式で利用できる既製のデータを使用することがよくありました。それは、それが素敵な長方形のフォーマット、いくつかのExcelスプレッドシート、またはRAMにうまく収まるようなものであることを意味します。データクリーニングは確かに関係しますが、RAMに収まらないデータ量を保持するために設定する必要のあるデータベースからはもちろん、Webからのデータの「抽出」に対処する必要はありませんでした。私の印象では、この計算の側面はデータサイエンスでははるかに支配的です。

  3. これは、統計学者が典型的な統計業務で何をするかについての私の無知を反映しているのかもしれませんが、データサイエンスの前は、モデルを大きな製品に組み込むことを考えていませんでした。行うべき分析、解決すべき統計的問題、推定すべきパラメーターがありました。データサイエンスでは、(常にではありませんが)多くの場合、予測モデルはより大きなものに組み込まれているようです。たとえば、どこかをクリックすると、ミリ秒以内に、予測アルゴリズムが結果として表示されるものを決定します。したがって、統計では、「どのパラメーターを推定でき、どのようにエレガントに行うことができるか」と常に疑問に思っていましたが、データサイエンスでは「データ製品で潜在的に有用であると予測できるもの」に重点が置かれているようです。

繰り返しますが、上記は一般的な定義を提供しようとはしていません。私は自分が感じている大きな違いを指摘しているところです。私はまだデータサイエンスを学んでいませんが、来年には移行したいと思っています。この意味で、ここに私の塩を一粒入れて2セントかかります。


2

データサイエンティストとは、結果を統計的に堅実な(有意な)ものにする方法を使用して、ビジネスで人間が読み取れる結果を作成する役割です。

この定義のいずれかの部分が守られていない場合、開発者、真の科学者/統計学者、またはデータエンジニアについて話します。


2

私はいつも問題の本質に切り込むのが好きです。

statistics - science + some computer stuff + hype = data science

1
それは、「実際にどのように動作するかを理解せずにソフトウェアを操作する方法を学ぶ」とカプセル化した「機械学習」の印象のようです(もちろん、不公平ですが、多くの「機械学習」さまざまな種類のニューラルネットのチューニングパラメーターが何を表しているのかしか理解していない、学校を出た人々。)
jbowman

1

データサイエンスは、分析的に複雑な問題を解決するための、データ推論、アルゴリズム開発、およびテクノロジーの学際的な融合です。しかし、データサイエンティストの不足により、データサイエンスのキャリアは本当に多くの機会を生み出します。ただし、組織はSAS、データサイエンスカウンシルオブアメリカ(DASCA)、Hortonworksなどの認定プロフェッショナルを探しています。これが良い情報であることを願っています。


1

データサイエンティストは、Python、MySQL、およびJava開発で非常に熟練したスキルを持っています。

数学、統計、データマイニング、予測分析のスキルが非常に優れており、PythonやRなどのコーディング言語に関する非常に優れた知識も持っています。

現在、多くのデータサイエンティストが博士号を持っています。または実際の研究によると、修士号を取得しているのは約8%だけであり、学士号を取得しているだけなので、より詳細です。

データに基づいて意思決定を行う統計モデルの構築。各決定は、ページのレンダリングをブロックするなどのハードな場合もあれば、下向きのシステムまたは人間が使用するページの悪意のスコアを割り当てるなどのソフトな場合もあります。

観察された現象の根本原因を特定しようとする因果関係実験の実施。これは、A / B実験を設計するか、A / B実験が問題に疫学的アプローチを適用できない場合に実行できます(例:@ Rubin因果モデル)

データの価値を解き放つことから生まれる新しい製品や機能を特定する。データの価値に関する思想的リーダーであること。その良い例は、Amazonが最初に大勢の視聴者に提供した製品推奨機能です。


1
うーん、ダメ。私はデータサイエンティストのジョブチェーンに参加することができますが、Javaについてもまったく知りませんし、Pythonにも精通しておらず、MySQLのスキルは一般的な品質のものです。私のグループには、Pythonをほとんど知らず、Rを好み、Javaを知っているのは1人だけですが、主にRとC / C ++でコーディングしている人がいます(私のように)。3人はPythonを知っていますが、まったく知りません低レベルの言語。Python v。Rフレーム戦争、またはJava v。C / C ++には入りたくありませんが、プログラミング関連のスキルリストが必要なわけではありません。
jbowman

0

「データサイエンティストとは?」という質問に答えるために http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/に記載されているように、データサイエンティストとデータメカニックの違いに注意する価値があるかもしれません。


1
これが完全な答えになるように、OPの読者や他の読者に重要なポイントを提供するために、回答の記事の主要なポイントを強調してください。
グリーンパーカー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.