統計+コンピュータサイエンス=データサイエンス?[閉まっている]


10

私はデータサイエンティストになりたいです。私は応用統計学(アクチュアリーサイエンス)を研究していたので、素晴らしい統計的背景(回帰、確率過程、時系列、ほんの数例を挙げます)を持っています。しかし、今、私はインテリジェントシステムのコンピューターサイエンスに重点を置いて修士号を取得します。

これが私の研究計画です:

  • 機械学習
  • 高度な機械学習
  • データマイニング
  • ファジーロジック
  • 推奨システム
  • 分散データシステム
  • クラウドコンピューティング
  • 知識発見
  • ビジネス・インテリジェンス
  • 情報検索
  • テキストマイニング

最後に、すべての統計およびコンピュータサイエンスの知識があれば、自分をデータサイエンティストと呼ぶことができますか?、または私は間違っていますか?

答えてくれてありがとう。



この質問はキャリアアドバイスに関するものなので、トピックから外れているようです。キャリアアドバイスは、意見志向の幅広い質問、または場合によっては非常に制限された質問をもたらすことが証明されており、そのほとんどは有用な話をしません。この意見に同意しない場合は、Data Science Metaで問題を提起してください。
asheeshr 2014

一言で言えば、違います。データ+科学的方法=データサイエンス:-)。その他はすべて、そこに到達するための方法論にすぎません
I_Play_With_Data

回答:


1

あなたはエキスパート データサイエンティストになるための正しい道を進んでいると思います。最近、Data Science StackExchangeでここに関連する質問に回答しました:https ://datascience.stackexchange.com/a/742/2452 (私がそこに言及している定義に注意を払ってください。側面実践 ソフトウェアエンジニアリングをして適用解決に知識を現実世界の)問題を。私はあなたがそれらすべてが役立つことを望んでいます。あなたのキャリアで頑張ってください!


9

まあそれはあなたがどのような「データサイエンス」に参加したいかによります。基本的な分析とレポートの統計には確かに役立ちますが、機械学習と人工知能の場合は、さらにいくつかのスキルが必要になります

  • 確率論 -あなたが純粋な確率で確かな背景を持っている必要があります。そうすることで、以前に見られたかどうかにかかわらず、問題を確率論の原則に分解することができます。統計は、既に解決されている問題の多くに役立ちますが、新しい未解決の問題は、適切な手法を設計できるように確率を深く理解する必要があります。

  • 情報理論 -これは(統計と比較して)非常に新しい分野です(まだ数十年前ですが)、最も重要な研究はシャノンによるものですが、文学でさらに重要でしばしば無視されている注は、カルバックライブラー分岐が証明したホブソンによる研究です「情報の測度」の概念を真に捉えた唯一の数学的な定義です。現在、人工知能の基本は情報を定量化することです。「統計力学の概念」を読むことをお勧めします-Arthur Hobson(非常に高価な本、学術図書館でのみ入手可能)。

  • 複雑さの理論-多くのデータサイエンティストが直面している大きな問題は、複雑な理論の背景がしっかりしていないため、アルゴリズムが拡張されないか、大きなデータで実行するのに非常に長い時間がかかるということです。PCAを例にとると、インタビューの質問に対する多くの人々のお気に入りの答えは「データセットの特徴の数をどのように減らすのですか」ですが、候補者に「データセットは本当に本当に大きい」と言っても、さまざまな形式を提案しますO(n ^ 3)であるPCA。目立つようにしたい場合は、各問題を独自に解決できるようにしたいのですが、ビッグデータが流行る前に設計されたテキストブックソリューションを投入しないでください。そのためには、理論的にだけでなく実際的にも、実行にかかる時間を理解する必要があります。つまり、コンピュータのクラスタを使用してアルゴリズムを配布する方法、

  • コミュニケーションスキル -データサイエンスの大部分は、ビジネスを理解することです。データサイエンスによって推進される製品を開発する場合でも、データサイエンスによって推進されるビジネスインサイトを提供する場合でも、プロジェクトマネージャーとプロダクトマネージャー、技術チーム、および仲間のデータサイエンティストの両方とうまくコミュニケーションできることが非常に重要です。あなたは素晴らしいアイデアを持つことができ、素晴らしいAIソリューションを言うことができますが、(a)ビジネスのお金を稼ぐ理由を効果的に伝えることができない場合、(b)同僚にそれが機能することを納得させ、(c)技術者に必要な方法を説明しますそれを構築するための彼らの助け、それからそれは成し遂げられません。


6

データサイエンティスト(私にとって)は大きな包括的な用語です。私は、データサイエンティストを、データマイニング、機械学習、パターン分類、および統計の分野の技術を上手に使用できる人物だと思います。

ただし、これらの用語は相互に関連しています。機械学習はパターン分類と結びついており、データマイニングはデータ内のパターンを見つけるときに重複します。そして、すべての手法には、基礎となる統計的原則があります。私はいつもこれを大きな交差点を持つベン図として描きます。

コンピュータサイエンスはこれらすべての分野にも関係しています。コンピュータサイエンスの研究を行うには「データサイエンス」の手法が必要だと思いますが、コンピュータサイエンスの知識は必ずしも「データサイエンス」に含まれているわけではありません。しかし、プログラミングスキル(プログラミングとコンピューターサイエンスは別の職業であると考えています。プログラミングは問題を解決するためのツールである)も、データを操作し、データ分析を行うために重要です。

あなたは本当に素晴らしい学習計画を持っていて、それはすべて理にかなっています。でも、「データサイエンティスト」と呼んでもいいのかわからないのですが、「データサイエンティスト」という言葉は、すべてを意味するのか、何も意味をなさないのか、あいまいな用語だと思います。私が伝えたいのは、あなたがデータサイエンティストの「単なる」というよりも、もっと「専門的な」ものになるということです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.