15
データサイエンティストとは何ですか?
最近、統計学の博士課程を卒業してから、ここ数か月間、統計学の分野で仕事を探し始めました。私が検討したほとんどすべての会社には、「データサイエンティスト」という肩書きを持つ求人がありました。実際、統計学者や統計学者の役職を見る日々はもうなくなったように感じました。データ科学者であることは、統計学者であることを本当に置き換えたのか、それともタイトルが同義語だったのだろうか? まあ、仕事の資格のほとんどは、統計学者の肩書きの下で資格があるもののように感じました。ほとんどのジョブは、統計学の博士号( checkmark)、実験計画( checkmark)、線形回帰とanova( checkmark )、一般化線形モデル( checkmark )、およびPCA()などの他の多変量法の理解が最も必要でした、およびRやSASなどの統計コンピューティング環境に関する知識()。データサイエンティストのように思えますが、実際は統計学者の単なるコード名です。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark しかし、私が行ったすべてのインタビューは、「機械学習アルゴリズムに精通していますか?」という質問から始まりました。多くの場合、ビッグデータ、高性能コンピューティング、ニューラルネットワーク、CART、サポートベクターマシン、ブースティングツリー、教師なしモデルなどのトピックに関する質問に答えなければならないことに気づきました。統計的な質問ですが、すべてのインタビューの終わりには、データサイエンティストが何であるかについてだんだんとわからなくなったような気分になります。 私は統計学者ですが、データ科学者ですか?私は科学的な問題に取り組んでいるので、科学者でなければなりません!また、データを扱うので、データサイエンティストでなければなりません!ウィキペディアによると、ほとんどの学者は私に同意するだろう(https://en.wikipedia.org/wiki/Data_science、など) ビジネス環境では「データサイエンス」という用語が爆発的に使用されていますが、多くの学者やジャーナリストは、データサイエンスと統計を区別していません。 しかし、データサイエンティストの立場でこれらの就職面接をすべて行っているのに、なぜ彼らが私に統計的な質問をすることはないように感じるのでしょうか? 前回のインタビューの後、私は良い科学者にやってもらいたいと思ったので、この問題を解決するためにデータを探しました(やっぱり、私はデータ科学者です)。しかし、後で何度も無数のGoogle検索を行った後、データサイエンティストとは何かの定義に再び取り組んでいるかのように感じ始めたところです。それのように多くの定義は、(があったので、私は、データ科学者が正確に何であったか知らなかったhttp://blog.udacity.com/2014/11/data-science-job-skills.html、HTTPを:// WWW -01.ibm.com/software/data/infosphere/data-scientist/)しかし、誰もが私が1人になりたいと言っていたようです: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL など...リストは続きます。 結局のところ、「データサイエンティストとは何か」と答えたのは非常に難しい質問でした。ヘック、Amstatにはこの質問に答えようと時間を割いていた2か月がありました。 http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 今のところ、私はデータサイエンティストになるためにセクシーな統計学者にならなければなりませんが、うまくいけば、相互検証されたコミュニティがいくらかの光を放ち、データサイエンティストになることの意味を理解できるようになるかもしれません。すべての統計学者はデータ科学者ではありませんか? (編集/更新) これは会話を盛り上げるかもしれないと思った。米国統計協会から、データサイエンティストを探しているMicrosoftの求人に関するメールを受け取りました。:ここにリンクされたデータ・サイエンティストポジション。ポジションの役割は私たちが話している多くの特定の特性に影響を与えるため、これは興味深いと思いますが、それらの多くは統計の非常に厳格な背景を必要とし、また以下に掲載された多くの答えと矛盾しています。リンクが機能しなくなった場合に、Microsoftがデータサイエンティストに求めている特性は次のとおりです。 コアジョブの要件とスキル: Analyticsを使用したビジネスドメインエクスペリエンス 大規模な実世界のビジネスデータセットで高度な分析を使用して、複雑なビジネス問題とそのソリューションを概念化するためのクリティカルシンキングスキルの活用に関するいくつかの関連ビジネスドメインでの経験が必要 候補者は、独自に分析プロジェクトを実行し、社内クライアントが調査結果を理解し、ビジネスに利益をもたらす行動に変換できるようにする必要があります。 予測モデリング 予測モデリングにおける業界全体の経験 重要な関係を引き出し、システムスコープを定義するためのクライアントとのビジネス問題の定義および概念モデリング 統計/計量経済学 連続データおよびカテゴリデータの探索的データ分析 企業および消費者の行動、生産コスト、要因需要、個別の選択、および必要に応じたその他の技術関係の構造モデル方程式の仕様と推定 連続データおよびカテゴリデータを分析するための高度な統計手法 時系列分析と予測モデルの実装 複数の変数の問題を扱う知識と経験 モデルの正確性を評価し、診断テストを実施する能力 統計または経済モデルを解釈する能力 個別のイベントシミュレーションと動的シミュレーションモデルの構築に関する知識と経験 データ管理 データ変換のためのT-SQLおよび分析の使用と、非常に大規模な実世界のデータセットに対する探索的データ分析手法の適用に関する知識 データの冗長性、データの正確性、異常値または極端な値、データの相互作用、欠損値などのデータ整合性への注意。 コミュニケーションとコラボレーションのスキル 独立して作業し、困難なビジネス問題に対する革新的なソリューションを研究する仮想プロジェクトチームと連携できる パートナーとのコラボレーション、批判的思考スキルの適用、分析プロジェクトのエンドツーエンドの推進 …