データサイエンティストはExcelを使用していますか?


37

私は自分を旅人のデータサイエンティストと考えています。ほとんどのように(私は思う)、私は最初のチャートを作成し、Excelを使用して高校と大学で最初の集計を行いました。大学、大学院、および7年間の実務経験を経て、SQL、R、Python、Hadoop、LaTeXなど、より高度なツールと思われるものをすぐに見つけました。

データサイエンティストの立場についてインタビューを行っており、1人の候補者が15年以上の経験を持つ「シニアデータサイエンティスト」(最近は非常に曖昧な用語)として自分自身を宣伝しています。彼が好むツールセットは何かと尋ねられたとき、彼はそれがExcelだと答えた。

私は、彼が履歴書が主張するほど経験が豊富ではなかったという証拠としてこれを取り上げましたが、確信はありませんでした。結局のところ、それが私の好みのツールではないという理由だけで、他の人のものではないという意味ではありません。経験豊富なデータサイエンティストはExcelを使用していますか?主にExcelを使用している人の経験不足を想定できますか?


ほとんどのデータサイエンスの求人広告では、R、Hadoopなどの特定のスキルが求められます。これを広告で言及することを怠っていましたか?あなたの新しいデータ・サイエンティストはバブルで仕事に行くされていない限り...その後、彼または彼女はチームで作業する必要があります、おそらく標準のチームのソフトウェアを使用する必要がある
Spacedman

1
彼らが使用しないなら\LaTeX{}、私はそれらを雇うことはないでしょう。冗談...
aeroNotAuto

1
@Spacedman:私は逸話的な文脈のためにストーリーを提供しましたが、ヒントを雇うよりも、エクセルに関する人々の意見に本当に興味があります。私たちのチームは好きなツールを自由に使用できます。
JHowIX

1
はい、こちらをご覧ください。障害のあるジョークについては、こちらも参照してください。
ダークエデルブッテル

1
指定年に関係なく、データサイエンティストから少なくとも3つのツールのPro / Conリストが期待されます。彼らは調査する能力を示し、選択肢に重みを付け、解決策を伝える必要があります。さらに、または特にインタビューで、私は本当のエンゲージメントと潜在的に素晴らしいが、現在欠けているインタビューの質問を超えて拡大する能力を期待しています。
デイブ

回答:


28

ほとんどの非技術者は、多くの場合、データベースの代替としてExcelを使用しています。私はそれは間違っているが、許容できると思います。ただし、データ分析の経験があると思われる人は、Excelをメインツールとして使用することはできません(初めてデータを見るという明らかなタスクを除く)。これは、Excelがそのような分析を目的としていなかったため、Excelで間違いを犯すのは信じられないほど簡単だからです(つまり、他のツールを使用するときに別のタイプの間違いを犯すのは信じられないほど簡単ではないということではありませんが、 Excelは状況をさらに悪化させます。)

Excelに含まれていないものを分析するために必要なものを要約するには:

  1. 再現性。データ分析は再現可能である必要があります。
  2. バージョン管理。コラボレーションに適し、再現性にも優れています。xlsを使用する代わりに、csvを使用します(依然として非常に複雑で、多くのエッジケースがありますが、最近ではcsvパーサーはかなり優れています)。
  3. テスト。テストがない場合、コードは壊れています。コードが壊れている場合、分析は役に立たないよりも悪いです。
  4. 保守性。
  5. 正確さ。数値の正確さ、正確な日付の解析などは、Excelには本当に欠けています。

その他のリソース:

欧州スプレッドシートリスクインタレストグループ-ホラーストーリー

重要な作業にスプレッドシートを使用しないでください(つまり)

マイクロソフトのエクセルは地球上で最も危険なソフトウェアかもしれない

この奇妙なトリックでExcelを使用してデータを破壊する!

Excelスプレッドシートを正しく取得するのは難しい


データを見て迅速に分析するために、Excelに匹敵するものの優れたものとしてプロが広く受け入れているツールはありますか?私は初心者のデータサイエンティストであり、主に(Postgre)SQLを使用していますが、Excelのようなものは、試しているだけで作業が高速になります。
須藤

1
また、CSVは標準ではないことを不満に思う必要があります。あなたは本当にそれを開いているものがそれを作り出したものと一致することを確認する必要があります。OpenOfficeはそれを正しく行い、読み込み時に形式について何も仮定せずに多くのCSVオプションを選択できるようにします。
須藤

@sudoツールは、選択したプログラミング言語に依存しますが、ほとんどの場合は個人的な好みです。ほんの一例を挙げると、Rは歴史的に良い選択であり、Pythonは近年のデータ分析で人気が高まっています。ジュリアはこの分野で非常に有望な新参者です。ほとんどのプログラミング言語は、データ分析に特に適した構造(データフレームなど)を提供する成熟したライブラリを提供し、それらはすべてExcelよりも優れています。CSVは標準化されていますが、異なる方法で実装される詳細がありますが、それは日常業務で大きな問題になることはありません。
ロバートスミス

私はPythonを軽い処理に使用していますが、実際にはExcelの目的を果たしていません。たとえば、Excelでは、オートフィルターやインタラクティブなチャートなどのツールを使用できます。私は通常、データをCSVに出力して、上級者がExcelなどで表示できるようにします。
須藤

@sudoそれでは、パンダが必要です。Pandasには、データを操作するための多くのメソッドが用意されています。これには、インデックス、列、または条件に基づくサブセット化が含まれます。これは、オートフィルターよりもはるかに柔軟で強力です。次に、結果をプロットし(df.plot())、出力をcsvにエクスポートします(df.to_csv('output.csv'))。データ分析には通常、フィルタリングとプロット以上のことを必要とすることに注意してください。したがって、正確性に焦点を当てる必要があるため、プレゼンテーションを分析から切り離す必要があります。Python(または他の言語)で分析を実行し、必要に応じて出力をcsvで共有します。
ロバートスミス

15

経験豊富なデータサイエンティストはExcelを使用していますか?

Excelを使用している経験豊富なデータサイエンティストをいくつか見ました-彼らの好みのため、または職場のビジネスおよびIT環境の仕様のため(たとえば、多くの金融機関は、少なくともモデリングのための主要なツールとしてExcelを使用しています)。ただし、ほとんどの経験豊富なデータサイエンティストは、特定のタスクに最適なツールを使用する必要性を認識しており、このアプローチを遵守していると思います。

主にExcelを使用している人の経験不足を想定できますか?

いいえ、あなたがすることはできません。これは私の上記の考えからの結果です。データサイエンスは、自動的にビッグデータを意味するものではありません。Excelが十分に処理できるデータサイエンスの仕事はたくさんあります。とはいえ、データサイエンティスト(経験のある人でも)が、ビッグデータに焦点を合わせたものを含む最新のデータサイエンスツールの知識(少なくとも、基本的な知識)を持っていない場合、やや不安になります。これは、探索的データ分析が不可欠であり、さらにはその重要な部分であるため、実験がデータサイエンスの性質に深く根付いているためです。したがって、自分のドメイン内の他のツールを探求する衝動を持っていない人は、データサイエンスの立場に全体的に適合する候補者の間で下位にランクされる可能性があります(もちろん、一部の人は学習が非常に速いため、かなりあいまいです)新しい素材に加えて、

したがって、結論として、経験豊富なデータサイエンティストが好みのツールに関して質問に答えるのに最適な答えは次のとおりだと思います。私の好みのツールは最適なツール、つまり手近なタスクに最適なツールです。


5
Hadoopを知らないことで誰かを責めることはありませんが、小さなデータの状況でも、Rが優れていると感じます。Rでできることは、Excelでできないことだけです。それは、この個人は彼の15+年であることを「発見」していない私を懸念
JHowIX

@JHowIX:「十分」という用語に慣れていますか?私はRの大ファンでもあり、いつでもExcelを含む多くのツールよりもRを好むでしょう。ただし、Rがもっとできるという事実は、Excel(またはタスクに適した他のツール)が特定の作業コンテキストで劣っていることを意味するものではありません。そのため、あなたの懸念は有効ですが(「邪魔する」という言葉を使って言及しています)、その人にはそれをする機会/必要性がなかったのかもしれません。Rは存在したが、主に学界で人気があり、データ分析(データ分析などと呼ばれる)は今日ほど暑くなかった時代について話していることを思い出してください。
アレクサンドルブレフ

13

私はほとんどの人が優れた知識がなくても答えていると思います。Excel(2010以降)には、パワーピボット(csv /データベースなどからの入力を許可する)と呼ばれるインメモリカラムナー[マルチテーブル]データベースがあり、数百万行を保存できます(スプレッドシートに読み込む必要はありません) 。また、パワークエリと呼ばれるETLツールもあり、さまざまなソース(hadoopを含む)からデータを読み取ることができます。また、視覚化ツール(パワービューとパワーマップ)があります。多くのデータサイエンスは、電力ピボットが優れている集約およびトップn分析を行っています。これにこれらのツールのインタラクティブな性質を追加します-すべてのユーザーは、結果を分割するディメンションを簡単にドラッグアンドドロップできます。ええ、機械学習はできません。


面白い。私は、Excel 1998-2008の遅くてバグの多いものに慣れています。新しいものを試してみてください。
須藤

seanv507の回答を何百万回も支持できればと思います。ここでの回答のほとんどは、多くの人が最新バージョンのExcelがどれほど強力かを認識していないことを示しています。また、新しいデータ分析ツール(たとえば、パワークエリ、パワーピボット、DAX)を使用する場合、これらのツールなしで1、048、576行のデータおよびその他の制限に制限されることはありません
maze55555

ビジネス背景のない人々はエクセルを使用しません。期間。また、ビジネスの卒業生は通常データサイエンスに進学しないことを考慮すると、無知を理解できます。
NoName

5

John Foremanは著書Data Smartで、Excelを使用して一般的なデータサイエンスの問題(クラスタリング、単純ベイズ、アンサンブルメソッドなど)を解決しています。確かに、PythonまたはRの知識を持っていることは常に良いことですが、Excelでもほとんどの仕事をこなせると思います!


2
実際、Excelを使って多くのことができるという本を読んだとき、私は自分自身に非常に驚きました。そして、進化的およびその他の非線形ソルバーが組み込まれていました!Excelの優れた利点は、特に再現可能なコードを使用している場合、RまたはPythonコードよりも多くの人が作業にアクセスできることです。
ビクターMa

5

実際にやるべき仕事ではなく、どれだけ多くの人がこの職業のクールさに執着しているかに驚いています。Excelは優れたツールで、無料のPowerpivot、Powerqueryを使用すると、多くのことができます。(これらはOS Xでは使用できません)。また、VBAを知っている場合は、いくつかの便利なことができます。そして、Pythonの知識に加えて、データの抽出と操作の最初のステップをpythonと組み合わせて、Excelを使用できます(特に視覚的な人の場合)。Excelを使用すると、集計されたデータを実際に検査してから、さらなるプロセスに入力したり視覚化したりできます。そのツールが必要です。


4

Excelは非常に小さなデータのみを許可し、機械学習や単にプロットするのに十分有用で柔軟なものは何も持っていません。Excelで行うことは、データのサブセットを見つめて値を一目見、目で見えるものを見逃さないようにすることです。

そのため、お気に入りのツールがExcelである場合、これは、機械学習、統計、より大きなデータサイズ、または高度なプロットをほとんど扱わないことを示唆している可能性があります。このような人は、データサイエンティストとは呼びません。もちろん、タイトルは重要ではなく、要件に大きく依存します。

いずれにせよ、経験談や履歴書で判断しないでください。私は履歴書を見て、その背後にいる人々を知っています。

想定しないでください。彼をテストしてください!あなたはテストをセットアップするのに十分なはずです。インタビューだけでは、スキルを判断するのに役に立たないことが示されています(性格を示すだけです)。非常に簡単な教師付き学習テストを設定し、必要なツールを使用できるようにします。

また、最初にインタビューで人々を選別したい場合は、統計または機械学習に関する非常に基本的だが重要な洞察について彼に尋ねてください。現在の従業員全員が知っていること。


2

まず、プログラマーとデータベース開発者の観点からデータサイエンスへの旅を始めていることを明確にしましょう。私は10年のデータ科学の専門家でも統計の神でもありません。しかし、私は世界中のかなり大きなクライアントと仕事をしている会社の仕事データ科学者と大規模なデータセットをやっています。

私の経験から、データサイエンティストは仕事を成し遂げるために必要なあらゆるツールを使用します。Excel、R、SAS、Pythonなどはすべて、優れたデータ科学者向けのツールボックスにあるツールです。最良の人は、さまざまなツールを使用してデータを分析および処理できます。

したがって、RとPythonを比較することに気付いた場合、データサイエンスの世界でそれをすべて間違っている可能性があります。優れたデータサイエンティストは、どちらか一方を使用することが理にかなっている場合に両方を使用します。これはExcelにも適用されます。

あらゆる点で優れている一方で、非常に多くの異なるツールや言語で経験を積む人を見つけるのはかなり難しいと思います。また、複雑なアルゴリズムをプログラムできるだけでなく、統計的な観点からそれらを使用する方法も知っているデータ科学者を見つけるのは難しいだろうと思います。

私が携わったデータサイエンティストのほとんどは、約2種類あります。プログラムできるものとできないもの。Pythonでデータを取得し、Pandasなどでデータを操作し、Rのデータにモデルを適合させてから、週末に経営陣に提示できるデータサイエンティストとはほとんど連携しません。

つまり、それらが存在することを知っています。Webスクラップを開発し、Hadoopにプッシュし、Pythonでそれを引き出し、複雑なものをプログラミングし、Rで起動して起動する人から、多くのデータサイエンスブログを読みました。それらが存在します。彼らはそこにいます。私はそのすべてを行うことができるほど多くに遭遇していません。たぶんそれは私の地域だけですか?

だから、それは一つの悪いことに特化することだけを意味しますか?いいえ、私の友人の多くはたった一つの主要言語に特化し、それを殺します。私は、Rのみを知ってそれを殺す多くのデータを知っています。また、Excelを使用してデータを分析するだけの人が多いことも知っています。これは、ほとんどのデータ科学者以外が開くことができる(特にB2B企業で)ためです。あなたが本当に答える必要がある質問は、この1つのことがあなたがこのポジションに必要な1つのものかどうかです。そして最も重要なこととして、彼らは新しいことを学ぶことができますか?

PS

データサイエンスは、「BIG DATA」またはNoSQLだけに限定されません。


こんにちはグレン、コメントありがとう。次のリンクをご覧ください。IBMのワトソンチームを率いたSwami Chandrasekaranから来たので、私の意見ではかなり経験豊富なデータサイエンティストです。彼は、基本的にデータサイエンティストが「基礎」と統計の後ろに知っておくべき3番目のこととしてプログラミングをしています。彼のロードマップによると、プログラミングの方法がわかれば、あなたはデータサイエンティストになる方法の15%になります。これに基づいて、真のデータサイエンティストは「プログラミングなし」の風潮に乗っているという声明に少し異議を唱えるかもしれません。 nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX

まあ、私は経験に基づいてそれを言うだけです。ほとんどの統計およびデータサイエンスコースは、一般的な統計プログラムに必要なプログラミング以外のプログラミングもカバーしていません。そのため、私が統計の世界で出会う人のほとんどはプログラミングが苦手です。彼らが現実の世界に足を踏み入れ、それが役立っていることに気付くとき、それは後付けのようなものです。
グレンスワン

1

Excelは探索的データ分析のための優れたツールであり、実際にニーズに依存し、もちろん他のツールと同様に制限がありますが、データサイエンスの殿堂に位置するに値するものです。

実際には、ほとんどのユーザーは、とにかく大幅に削減されたデータセット(SQLクエリから作成された)を探索していることに注意してください。

Excelは、ピボットテーブルと組み合わせて「テーブル」オブジェクトを使用する場合、データを探索するのに強力です。視覚化はすべて最大1〜2クリックで、PowerPointの多くのExcelグラフは、科学計算のコンテキスト。インタラクティブな性質により、すばやく探索できます。

「テーブル」オブジェクトの利点は、Excelでデータをさらに変換して新しい分布を探索できるようになると、ピボットテーブルがすべて変数を記憶することです。

Excelの弱点は、式のリストがほぼ制限されていることです。たとえば、SQLのcaseステートメントやpythonの文は、if関数の無限のチェーンよりもはるかに柔軟です。

それは本当にあなたのニーズに依存しますが、データサイエンスの殿堂に位置するに値するものです。

興味深い逸話として、Facebookニュースフィードアルゴリズムに取り組んでいるチームはすべて、優れたスプレッドシートで遊んでいるように見えることがよくあります。


0

SQLとExcelを含むビジネス分析コースを教えています。私はビジネススクールで教えているので、生徒は技術的に最も優秀ではありません。そのため、R、Pandas、Wekaなどを使用しませんでした。そうは言っても、Excelはいくつかのデータ分析に使用するのに十分強力なツールです。データマイニングアドインを使用して、SQL Server Analysis Services(データ分析用のSQL Serverのコンポーネント)のフロントエンドとして機能する能力から、この能力のほとんどを取得します。

SSASを使用すると、ディシジョンツリーを構築し、線形およびロジスティック回帰を実行し、さらにベイジアンまたはニューラルネットワークを作成できます。Excelをフロントエンドとして使用することは、これらの種類の分析はすべて以前にExcelを使用したことがあるため、これらの種類の分析を行う際の脅威の少ないアプローチであることがわかりました。ExcelなしでSSASを使用する方法は、Visual Studioの専用バージョンを使用することであり、これは最もユーザーフレンドリーなツールではありません。Power QueryやPower Pivotなどの他のExcelツールと組み合わせると、かなり洗練されたデータ分析を行うことができます。

完全開示、来年のコースの新しいバージョンを教えるとき、おそらく再び使用するつもりはありません(2つのコースに分割して、データ分析により重点を置くことができます)。しかし、それは、大学がより使いやすく、より強力であるが、なんとか無料で入手できない場合は1ユーザーあたり年間4〜8万5,000ドルであるAlteryxの十分なライセンスを取得できたからです。Excelについてあなたが言うことを言ってください。


0

Excelは優れたツールです。確かに、あなたが何をするかに応じて、それは法案に合わないかもしれませんが、もしそうなら、それを却下することはほとんど愚かなことでしょう。パイプラインのセットアップには時間がかかりますが、Excelでは、組み込みのUI、Python(例:https : //www.xlwings.org)でもVBAを介した簡単な拡張性を実行できます。バージョン管理のようなものになると理想的ではないかもしれませんが、Gitで動作させる方法があります(例:https : //www.xltrail.com/blog/auto-export-vba-commit-hook)。


-2

この個人は「ビッグデータ」で動作し、主にExcelを使用していますか?マジ?!?!Excelは、1つのスプレッドシートで最大1、048、576行のデータのみを処理します。それを超えるデータセットには、プラグインが必要です。また、Excelのピボットテーブルには、それらを使用して実行できる分析に厳しい制限があります。

どのタイプのデータ分析タスクを採用するジョブで実行する必要がありますか?

検討中のジョブで実行する必要があるタスクの種類のテストを含むインタビューを実施することをお勧めします。機密性、プライバシー、またはデータ保護を侵害することなく、インタビューの一部として設定されるプログラミングまたはデータ分析タスクには、インタビュー対象の投稿に関連するデータセットの(仮名)サブセットを含める必要があります。そうしないと、会話ベースのインタビューで明確に表現されているが、実際の仕事を実際に遂行する能力がない人を採用することになります。


誰も「ビッグデータ」とは言いませんでした。彼らは「データサイエンティスト」と言った。すべてのデータが「ビッグデータ」ではありません。1つのプロジェクトでR、Python、SQL、Excelのすべてを使用した経験豊富なデータサイエンティストと協力しました。すべてのデータ分析がプログラムまたはスクリプト化されているわけではありません。他の場所で述べたように、あいまいなジョブ仕様=>さまざまなタイプのデータサイエンティスト。
smci
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.