まず、プログラマーとデータベース開発者の観点からデータサイエンスへの旅を始めていることを明確にしましょう。私は10年のデータ科学の専門家でも統計の神でもありません。しかし、私は世界中のかなり大きなクライアントと仕事をしている会社の仕事データ科学者と大規模なデータセットをやっています。
私の経験から、データサイエンティストは仕事を成し遂げるために必要なあらゆるツールを使用します。Excel、R、SAS、Pythonなどはすべて、優れたデータ科学者向けのツールボックスにあるツールです。最良の人は、さまざまなツールを使用してデータを分析および処理できます。
したがって、RとPythonを比較することに気付いた場合、データサイエンスの世界でそれをすべて間違っている可能性があります。優れたデータサイエンティストは、どちらか一方を使用することが理にかなっている場合に両方を使用します。これはExcelにも適用されます。
あらゆる点で優れている一方で、非常に多くの異なるツールや言語で経験を積む人を見つけるのはかなり難しいと思います。また、複雑なアルゴリズムをプログラムできるだけでなく、統計的な観点からそれらを使用する方法も知っているデータ科学者を見つけるのは難しいだろうと思います。
私が携わったデータサイエンティストのほとんどは、約2種類あります。プログラムできるものとできないもの。Pythonでデータを取得し、Pandasなどでデータを操作し、Rのデータにモデルを適合させてから、週末に経営陣に提示できるデータサイエンティストとはほとんど連携しません。
つまり、それらが存在することを知っています。Webスクラップを開発し、Hadoopにプッシュし、Pythonでそれを引き出し、複雑なものをプログラミングし、Rで起動して起動する人から、多くのデータサイエンスブログを読みました。それらが存在します。彼らはそこにいます。私はそのすべてを行うことができるほど多くに遭遇していません。たぶんそれは私の地域だけですか?
だから、それは一つの悪いことに特化することだけを意味しますか?いいえ、私の友人の多くはたった一つの主要言語に特化し、それを殺します。私は、Rのみを知ってそれを殺す多くのデータを知っています。また、Excelを使用してデータを分析するだけの人が多いことも知っています。これは、ほとんどのデータ科学者以外が開くことができる(特にB2B企業で)ためです。あなたが本当に答える必要がある質問は、この1つのことがあなたがこのポジションに必要な1つのものかどうかです。そして最も重要なこととして、彼らは新しいことを学ぶことができますか?
PS
データサイエンスは、「BIG DATA」またはNoSQLだけに限定されません。