Excelはデータサイエンスに十分ですか?


12

私は、Rプログラミング言語を使用して、データサイエンスの入門コースを教える準備を進めています。私の聴衆は、ビジネス科目を専攻する学部生です。典型的なビジネスの学部生は、コンピュータープログラミングの経験はありませんが、Excelを使用するいくつかのクラスを受講しています。

個人的には、コンピューターサイエンスを専攻したため、R(または他のプログラミング言語)に非常に満足しています。しかし、生徒の多くはプログラミング言語を学ぶのが難しいように見えるかもしれないので慎重になると感じています。

私はExcelにある程度精通しています。Excelは単純なデータサイエンスには役立ちますが、学生はデータサイエンス用の本格的なプログラミング言語(RやPythonなど)を学ぶ必要があると考えています。Excelはデータサイエンスを勉強している真面目なビジネス学生には不十分であり、プログラミングを学ぶ必要があると自分自身や学生にどのように説得しますか?

コメントに応じて編集

ここで取り上げるトピックの一部を次に示します。

  • データ処理とデータクリーニング
  • データテーブルの操作方法。たとえば、行のサブセットの選択(フィルター)、新しい変数の追加(変更)、列ごとの行の並べ替え
  • dplyrパッケージを使用したSQL結合
  • ggplot2パッケージを使用してプロット(散布図、棒グラフ、ヒストグラムなど)を描画する方法
  • 線形回帰、ロジスティック回帰、分類木、k最近傍などの統計モデルを推定および解釈する方法

私はExcelをあまりよく知らないので、これらのタスクのすべてをExcelで簡単に実行できるかどうかはわかりません。


シラバスの内容がわからなければ、この質問に答えることはできません。そうは言っても、ExcelのPower Pivot / Data Modelを見てください。最近では、Excelで数百万行のマルチギガバイトデータセットを簡単に処理できますが、高速です。
ガイウス

@Gaiusコースで教えたいことの詳細を追加しました
にコーディングし

あなたのポイント1-4もデータモデルによってサポートされているsupport.office.com/en-us/article/... -ポイント5ために私がAzureMLの自由層を示唆しているstudio.azureml.netを
ガイウス

AzureMLもところでRで動作します
ガイウス

4
あなたの最後のポイントについて-ジョン・フォアマンによる著書「データスマート」を見てみましょう- amazon.com/Data-Smart-Science-Transform-Information/dp/...
グレゴリー徳敏

回答:


10

まず、この投稿をご覧ください。データサイエンスタスクに関して、Excelが他のソリューションよりも劣っているのには多くの理由があります。また、Excelは、大きなデータセット(数十万件のレコード- ビッグデータの周辺は言うまでもありません)、画像、および音声データを処理できません。

Excelは、スプレッドシートに関する簡単なタスクに適しています。実際にデータを分析するための最小限のサポートを持ちながら、プレゼンテーション使いやすさを重視しています。単純な統計的測定(平均、平均など)を計算したり、非常に単純なモデル(線形回帰など)を作成したりする場合を除き、Excelは非効率的です。そうは言っても、企業がデータに関して処理しなければならない作業の99%は、Excelで管理できるほど単純です。

ただし、Data Scienceは主に回帰、分類、およびExcelに対応する複雑なモデルを扱っていません!学生がデータサイエンスを見たい場合は、学生に役立つツール(R、Pythonなど)を教える必要があります。これらの言語には、「遊ぶ」ための大量のモデルが組み込まれたライブラリもあります。

私が後者の選択肢を選ぶもう一つの本当に大きな理由は、それらがオープンソースであることです。私は、オープンソースソフトウェアが独自のソリューションよりも教育の観点から優先されるべきだと個人的に感じています(これはまた、MatlabよりもPythonとRを推奨する理由です!)


上記のすべてに同意しますが、彼は彼らがビジネス専攻だと言いました。Rを教えるだけでなく、R / Excelプラグインのデモンストレーションも忘れないでください。
CalZ

1
「Excelは大規模なデータセット(数十万件のレコード)を処理できません<-はい、簡単に処理できます。AzureMLやPowerBIなどの深刻なバックエンドのクライアントとして機能できます。私はExcelの「ファンボーイ」ではありません」とはいえ、基本的なツールさえ知らない「データ駆動型」と思われる人々を見るのは私を魅了します。-
ガイウス

1
同じ「基本」マシン(16 GB RAM、i7 ecc)で、100万行のデータセットと数千列の場合、どのソリューションがより速く開くでしょうか?私はExcelを中傷しようとはしていません。ただの好奇心です。私の知る限り、Excelでそのようなデータセットを開くことさえできません。RStudioは同じPCで問題なく読み取ります。
–RLave

7

私はビジネス分析の修士号を取得したばかりで、あなたが説明しているのと同じ問題に直面しました。幸運なことに私は技術者であり、RとPythonを自分で教えることができましたが、クラスの残りの人々にRとPythonの使い方を教えるのにこだわっていました。R / Pythonを使用していたクラスは、学生による技術的な理解が不足していたため、R / Pythonを開く方法をカバーするのに時間がかかりすぎていました。他のルートに行ったクラスは圧倒的で、あまり実用的ではありませんでした。クラスプロジェクトのために、その制限のためにExcelで実行できなかった何かをしたかったのですが、教師は他のツールを受け入れませんでした。

すぐにできることではないかもしれませんが、コースを受講する前にプログラミングコースを要求するよう学部に依頼することを強くお勧めします。データサイエンスとビジネス分析IMHOは、コンピューターサイエンスをある程度必要とする学際的な学位パスである必要がありますが、プログラムが成熟して大学のシステムが改善されるまで、しばらくは実現しない可能性があります。


あなたは、「クラスプロジェクトのために、その制限のためにExcelで実行できない何かをしたかった」と述べました。Excelでできなかったことは何ですか?
にコーディングしたい

3

PythonやRなどの一般的なデータサイエンス言語を教える必要があると思います。Excelは、実際の仕事でそれらを支援するつもりはなく、データサイエンスの目的には実用的ではありません。おそらく長期的にはPythonが彼らにとって最も価値があり、scikit-learnのようなパッケージを使用すると、より簡単に読み取りおよび理解できる非常に少ないコード行で回帰と分類を実証できます。Rを読んでいるだけで、Rが何をしているのかを理解することは必ずしも容易ではありません。

もう1つのアドバイス:Pythonを使用して必要なすべてのパッケージで仮想環境を作成し、pycharmのようなIDEをセットアップする場合、学生にIDEのセットアップと必要なパッケージのダウンロードを強制する時間を無駄にしないでくださいこれと他のほとんどのIDEを学生/アカデミックライセンスの下で入手します)。そこで、困難で混乱を招くコンソールではなく、UIを介してコードを開発および実行できます。Rルートを下る場合は、RStudioなどのIDEがセットアップされていることを確認し、すべてのインクルードとパッケージインストールがサンプルコードに含まれているか、完全に記述されていることを確認してください。


「Excelは彼らを実際の仕事に役立てるつもりはありません」、それが同僚全員が使用しているものであるかどうかは確かです。あなたの経験では、Excelを使用しない実際の仕事は何ですか?
ガイウス

3
大量のデータを扱うデータサイエンスの役割(私のものも含む)。興味のない主なツールとしてExcelを使用すると思われるDSジョブはどれですか?
ダンカーター

あなたのプロフィールから、あなたは学生ですか?ああ。これらは、DSで1つのコースを受講するビジネス学生です。ビジネスの仕事では、Excelを主要なツールとして絶対に使用します。
ガイウス

1
確かに、ビジネスタイプの役割でExcelを使用する可能性が高いのは確かですが、OPが明確に述べているように、彼らはExcelをカバーするコースを既に受講しています。これを、Excelが業界または学術のデータサイエンスに適していないという事実と結び付けて、「データサイエンスのExcel」を教えることは、私が言ったように実際の仕事に役立たないことは明らかです。フランス語を話すように教えることで、男性(または女性)に魚を教えることはできません。
ダンカーター

では、既にExcelでコースを受講している場合はどうでしょうか?Rを学べない薄明かりのように扱わないでください。ここではHaskellやLISPについて話していません。
エマー

2

データサイエンスを勉強している真面目なビジネス学生にはExcelが不十分であると自分や学生を納得させる方法

Rに巨大なdata.frameを作成し(mln行と数百列を結合)、. xlsxとして保存します。

同じマシンのRとExcelでロードする際の時間差を示します。同じデータセット上の2つのデータの基本的な統計操作を比較します(プロットも含む)。

ポイント番号 youtリストの2-4はExcelでも行うことができますが、もっと痛いのは、dplyr基本的なExcelと比較して、これが強調する巨大なデータセットで、で簡単に(そしてより速く)フィルタリングする例をいくつか示します違い。

Excelを使用してPCをクラッシュさせるデータセットを思い付くことができる場合のボーナスポイント。

また、R(またはPython)の「自由に使用できる」部分を強調します。たとえば、SASと比較して、1つのソリューション(つまり、ある種のクラスター)を単に試してみたい場合は、ライブラリをロードし、試してみてください。

それが私にとっての美しさです。必要なものは何でも無料で試すことができます。多くの場合、DSの鍵となります。インストールするライブラリごとに料金を支払う必要があるかどうかを想像してください。


1

Excel and Data Science-私には本当に奇妙に聞こえます。たぶんExcelと「データ分析」。

とにかく、ExcelとRの間の良い妥協点は次のとおりだと思います:KNIME(http://www.knime.org/knime-analytics-platform)。デスクトップでは無料で、使い始めるのがずっと簡単です。Excelにインポート/エクスポートできますが、必要な機能が〜1.000ノードに欠けている場合は、R、Python、またはJavaも使用できます。ワークフローは視覚的に作成されるため、プログラミング言語をまったく知らない人にワークフローを表示する方がはるかに簡単です。これは企業によっては非常に有利です。


0

問題は、クラスを受講することで、最新のデータサイエンスのレベルに似たデータサイエンス、つまり画像処理や顔認識などのファンシーなことを生徒に納得させようとしていることだと思います。ほとんどの場合、「このクラスを受講することで...」と言われますが、彼らに教えるために必要なのは、データへの愛情と、たくさんのデータに目を通し、うまくいけばそれらをいじる勇気ですそれらからいくつかの感覚。彼らがそうする瞬間に、あなたは彼らをデータサイエンティストと呼ぶことができ、あなたは今、新しい世代のデータサイエンティストを持っていることを誇りに思うべきです。その後、彼らがデータサイエンスに非常に真剣であれば、数学、統計、コンピューターサイエンス(あなたが言ったようなプログラミング経験)を扱う他の集中コースを受講することができます。私はあなたの生徒と同じような状況にありました。私はCSのバックグラウンドを持っていませんでしたが、いくつかのオンラインクラスを空想的な約束で受講してデータサイエンスとAIに侵入したかったのです。私は膨大なお金を無駄にしましたが、非常にフラストレーションを感じました(ああ、このクラスをこのアルゴリズムを知る必要があります、彼らは今ニューラルネットワークについて話しているので、私は他のクラスなどにサインアップする必要があります) ; DR。ツールは、問題の1%を占めるだけです。あなたの経歴があれば、1週間でExcelで上記のタスクを理解するのに問題はないはずです。ああ、彼らは現在ニューラルネットワークについて話しているので、他のクラスなどにサインアップする必要があります。)TL; DR。ツールは、問題の1%を占めるだけです。あなたの経歴があれば、1週間でExcelで上記のタスクを理解するのに問題はないはずです。ああ、彼らは現在ニューラルネットワークについて話しているので、他のクラスなどにサインアップする必要があります。)TL; DR。ツールは、問題の1%を占めるだけです。あなたの経歴があれば、1週間でExcelで上記のタスクを理解するのに問題はないはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.