データサイエンティストの仕事はどの程度のデータの問題ですか?


44

現在、小売企業のデータサイエンティストとして働いています(DSとしての最初の仕事です。この質問は、私の経験不足の結果かもしれません)。それらには、実装された場合に大きなプラスの影響を与える本当に重要なデータサイエンスプロジェクトの膨大なバックログがあります。しかし。

データパイプラインは社内に存在しないため、標準的な手順では、何らかの情報が必要なときにいつでもギガバイトのTXTファイルを渡すことができます。これらのファイルは、不可解な表記法と構造で保存されたトランザクションの表形式のログと考えてください。1つのデータソースにすべての情報が含まれているわけではなく、「セキュリティ上の理由」でERPデータベースへのアクセスを許可することはできません。

最も単純なプロジェクトの初期データ分析には、残忍で耐え難いデータの論争が必要です。プロジェクトに費やした時間の80%以上は、実行可能なデータセットを構築するためにこれらのファイル解析し、データソースクロスしようとしていることです。これは単に欠落しているデータを処理したり、前処理したりする問題ではなく、最初に処理できるデータを構築するために必要な作業に関するものですデータサイエンスではなく、dbaまたはデータエンジニアリングで解決可能ですか?)。


1)ほとんどの作業がデータサイエンスにまったく関係していないように感じます。これは正確ですか?

2)これは高レベルのデータエンジニアリング部門を持つデータ駆動型企業ではないことを知っていますが、データサイエンスプロジェクトの持続可能な未来に向けて構築するためには、最低限のレベルのデータアクセシビリティが必要であると考えています。私が間違っている?

3)このタイプのセットアップは、深刻なデータサイエンスのニーズを持つ企業に共通ですか?


情報が必要な形式を指定しましたか?また、ERPでこれを行う方法について説明しますか?
ジョナー

@jonnorもちろん。私はここでほぼ2年間働いており、1日目からデータアクセスのためのより良いプラットフォームを構築する方法を説明しました。ただし、同社が30年間行ってきたことを変えることには強い抵抗があります。
ビクターヴァレンテ

13
時間の追跡を開始し、TXTを使用可能な形式に戻す時間を無駄にするコストに換算します。彼らが$の数字を手に入れたら、それを成し遂げることができるでしょう。
ネルソン

それがあなたの時間の負担であるなら、あなたはそれを外注することができます。
肉腫

会社がデータサイエンティストを雇い、それでも変化に抵抗するのは紛らわしいと思います。無駄な時間と、実際のセキュリティなしでデータを長いTXTファイルに保存する危​​険性を示す必要があります
Pedro Henrique Monforte

回答:


27
  1. ほとんどの作業はデータサイエンスとはまったく関係がないように感じます。これは正確ですか?

    はい

  2. これは、高度なデータエンジニアリング部門を持つデータ駆動型の会社ではないことは知っていますが、データサイエンスには最小限のレベルのデータアクセシビリティが必要だと思います。私が間違っている?

    あなたは間違っていませんが、それが現実の現実です。

  3. このタイプのセットアップは、深刻なデータサイエンスニーズを抱える企業で一般的ですか?

    はい

技術的な観点からは、生活を楽にするETLソリューションを検討する必要があります。特定のデータを読み取るために、あるツールが別のツールよりもはるかに高速になる場合があります。例えば、Rのreadxlは、xlsxファイルの読み取りにおいて、pythonのパンダよりも高速です。Rを使用してファイルをインポートし、Pythonに適した形式(寄木細工、SQLなど)で保存できます。あなたはxlsxファイルで作業していないことを知っていますし、Pythonを使用するかどうかはわかりません-それは単なる例です。

実用的な観点から、2つのこと:

  • まず、技術的に可能なことを理解します。多くの場合、知っていることを伝える人は、ビジネスやコンプライアンスの考慮事項を心配しているが、ITの観点からは何が可能かという概念を持たないITに詳しい人です。DBAまたはデータインフラストラクチャを管理する人と話をするようにしてください。技術的に可能なことを理解します。次に、妥協点を見つけようとします。例えば、彼らはあなたに彼らのシステムへのアクセスを与えませんが、私はその背後にデータベースがあると思いますか?たぶん彼らは他のいくつかの形式にデータを抽出できますか?データ型などを定義するSQLステートメントを抽出できますか?

  • あなたがそうすることが彼らの関心事であると主張することができれば、ビジネスの人々はあなたを助ける可能性が高くなります。彼らがあなたがしていることさえ信じていないなら、大変な運...


2
ETLソリューションの検索/構築に関する優れたポイント。ただ追加する必要があります:快適で、簡単に読み取り/デバッグできるセットアップを選択してください。タスクを自動化する初期段階では、これは最速のデータ丸lurみツールを見つけることよりもさらに重要です。テキストのギグであれば、おそらく一晩で実行される可能性が高く、ツール/フレームワーク/言語の流encyさは、良いデータに目覚めるか、やり直さなければならないかの違いを生む可能性があります。一度のやり直しだけで、効率のメリットを完全になくすことができます。速くてつまずくよりも、バグが少なく安定している方が良い。
ジェイソン

2
本当です。しかし、また、過度に最適化しないでください。優先順位を賢く選択してください。データのインポートが1回限りの場合、インポート時間を2時間から30分に短縮する方法を探して数日を費やさないでください。など
PythonGuest

39

これは、多くのブログ、企業、論文が多くの場合に現実のものとして認めている状況です。

このホワイトペーパーでは、ビッグデータのデータラングリング:課題と機会について引用しています。

データサイエンティストが時間の50パーセントから80パーセントを費やしている

手に負えないデジタルデータの収集と準備。

また、ニューヨークタイムズのビッグデータサイエンティスト向けのこの記事の引用文のソースを読むことができます。

残念ながら、現実の世界はKaggleのようなものではありません。CSVまたはExcelファイルを取得することはできません。CSVファイルまたはExcelファイルを取得するだけで、わずかなクリーニングでデータ探索を開始できます。ニーズに適さない形式のデータを見つける必要があります。

できることは、できる限り古いデータを利用し、新しいデータの保存を、自分(または将来の同僚)が作業しやすいプロセスに適応させることです。



4
フォーブスは、「データサイエンス」という言葉とともに言及すべきではありません。
gented

(引用)「インタビューと専門家の見積もり」に基づく50〜80%
oW_

3
@gented意見に基づく意見に対する意見に基づく回答に関する意見に基づく記事の意見に基づく調査に関する意見に基づくコメント。「データサイエンス」SEでこれを見つけると誰が思ったでしょうか。
キータ

25

ほとんどの作業はデータサイエンスとはまったく関係がないように感じます。これは正確ですか?

これは、データサイエンスプロジェクトの現実です。Googleは実際にそれを測定し、「機械学習システムの隠れた技術的負債」という論文を発表しましたhttps://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

ここに画像の説明を入力してください

論文の結果も私の経験を反映しています。ほとんどの時間は、データの取得、クリーニング、処理に費やされています。


7
  1. ほとんどの作業はデータサイエンスとはまったく関係がないように感じます。これは正確ですか?

    データの論争は、データサイエンティストの職務記述書に間違いなくあります。あるレベルでは、データ駆動プロセスを使用してソリューションを推進するために、データ生成プロセスを理解する必要があります。確かに、ETLに特化した誰かがそれをより速く/より効率的に行うことができますが、データダンプが与えられることは現実の世界では珍しいことではありません。データサイエンスのこの側面が気に入らない場合は、アクセスできるウェアハウスにデータを適切に提供するために、ITリソースとより密接に連携する機会があるかもしれません。別の方法として、データの順序が既に整っているジョブを見つけることもできます。

  2. これは、高度なデータエンジニアリング部門を持つデータ駆動型の会社ではないことは知っていますが、データサイエンスには最小限のレベルのデータアクセシビリティが必要だと思います。私が間違っている?

    最低レベルはtxtファイルだと思います。テキストファイルを介してデータにアクセスできる場合は、データベース内のデータにアクセスする必要があります(上司にこれを押し戻します)。

  3. このタイプのセットアップは、深刻なデータサイエンスニーズを抱える企業で一般的ですか?

    はい。あなたはデータサイエンティストです。あなたは専門家です。現在のデータ構造の非効率性と支援方法について他の人を教育することは、あなたの仕事の一部です。使用できないデータは、誰にも役立っていません。物事を改善し、会社の未来を形作る機会があります。


6

データサイエンスのもう1つの最近のスターターとして、あなたが経験していることはユニークだとは思わないことだけを付け加えます。約10人の私のチームは、明らかに1年以上DSを実行していません。チーム)。これは、チームが取り組んでいる効果的なパイプラインの約束によるものですが、それでもデータを十分に配信していません。過去の保持は明らかに不十分であり、将来のDSプロジェクトのためにMS Azure環境の聖杯が継続的に約束されています。

答えるには:

1)はい完全に正確

2)いいえ、あなたは正しいですが、必要なデータにアクセスするのは困難です(存在する場合でも)。

3)他の企業よりも優れた企業が存在するはずです。現在の会社に耐えられない場合は、2年で十分です。より明るいものを探し始めます(現在の仕事を辞めたいという言い回しに注意してください。 「私の古い会社は私にデータを提供しません」よりも良い音になります)。


5

「これは私の仕事ではないので、なぜそれを行う必要があるのか​​」という観点からこれを見ると、それはデータサイエンスに固有ではないかなり一般的で一般的な問題です。最終的に、あなたの仕事は上司があなたに指示することは何でもすることですが、実際には上司がこれについて独裁的である理由はほとんどなく、通常彼らを説得することができます。または、少なくとも彼らはあなたにそれがなぜそうでなければならないのかについての誠実な説明を与えるでしょう。しかし、権威に訴える限り、データクリーニングはせいぜいX%しかできないという「データサイエンス」の公式の定義はありません。当局は、あなたに支払いを停止する法的権利がある限り、あなたに支払いをする人です。

また、別の観点からそれを見ることができます:これはあなたの時間の良い使用ですか?いくつかのタスク(「データサイエンス」という意味)を行うために仕事をしたが、別のこと(「データラングリング」と呼ぶ)をしなければならないようです。仕事の説明と個人的な感情は、ここより重要な点があるため、ここでは少しばかりです。会社は、おそらくあなただけができること(データサイエンス)を行うために多額のお金をあなたに支払っています。しかし、代わりに他のことをしてもらうことです。それは、より有能な、やる気のある、または安価な人の組み合わせである他の人が行うことができます。給料の半分を稼いでいる人がデータの争いを行うことができる場合、同じことをするために2倍のお金を払っても意味がありません。もっと早くできたら誰かが同じ給与を支払った場合、同じロジックが適用されます。したがって、会社にこのタスクを割り当ててもらうことは、リソース(特にお金)の無駄です。この観点から考えると、上司に物事のあなたの側を見せるのがずっと簡単だと思うかもしれません。

もちろん、一日の終わりには、誰かがデータの乱闘をしなければなりません。それを行う最も安い、最速、最も簡単な方法-仕事に最適な人はあなたかもしれません。その場合、あなたは一種の不運です。あなたはそれがあなたの契約の一部ではないと主張しようとするかもしれませんが、彼らが契約に特定の何かを入れるのに十分素朴だった確率は何ですか?


3

簡単に言うと:

  • 変数を作成して数値をビニングするとき、盲目的に行うのですか、それともデータを分析した後ですか?
  • ピアが調査結果を確認するときに、特定のデータに関する質問がある場合、それらを知らないのは恥ずかしいでしょうか?

データを操作して理解する必要があります。これには、不整合の修正(NULL、空の文字列、「-」)から、データの収集から表示までの単純なものが含まれます。それを処理することは、同じ情報を知ることを含むので、とにかくやらなければならなかった部分的な作業です。

さて、この会社は、データを保持するために何らかの種類の無料のMySQL(または同様の)インスタンスをセットアップすることで利益を得ることができるように思えます。ラングリングコードを設計しているときに柔軟に対応することもお勧めです。処理済みデータの中間データセットを用意しておくと、MySQLで許可されている場合に役立ちます。

しかし、もちろんあなたはまだゼロから物事を設定しています。これは簡単なプロセスではありませんが、この「学習体験」は、少なくとも履歴書に入れるのに適しています。


3

1)ほとんどの作業がデータサイエンスにまったく関係していないように感じます。これは正確ですか?私の意見では、Data ScienceはData wranglingから抜け出すことはできません。しかし、あなたが言ったように、質問は、データ科学者がデータラングリングの何パーセントを行う必要があるかということです。それは、組織の帯域幅と、そのような作業を行うことに対する個人の関心に依存します。DSとして15〜16年の経験では、データランリングアクティビティに約60〜70%を費やし、実際の分析には最大15%の時間を費やしました。だからあなたの電話を取る。

2)これは、高度なデータエンジニアリング部門を持つデータ主導型の会社ではないことは知っていますが、データサイエンスには最低限のレベルのデータアクセシビリティが必要であると考えています。私が間違っている?繰り返しますが、それは組織のセキュリティポリシーに依存します。彼らはすべてをあなたに任せることはできず、彼らはデータを臨時従業員である人に明らかにするための独自のセキュリティ問題を抱えています(この言葉を使用して申し訳ありません:-()

3)このタイプのセットアップは、深刻なデータサイエンスのニーズを持つ企業に共通ですか?このような企業は、データドリブンモデリングがビジネスを維持するための未来であると感じさせるために、データサイエンティストから最も注意を払う必要があると感じています。:-)

技術的な観点ではなく、ビジネスを考える上で意見を述べました。:-)私の言葉の選択が明確であることを願っています。


3

チューリング賞を受賞したマイケル・ストーンブレイカーは、「ビッグデータは4つの異なる問題」という講演で、この特定の問題を大きな問題として言及しています(ビデオスライド

彼は、この分野には多くの未解決の問題があると言います。Ingest、Transform(egユーロ/ドル)、Clean(eg-99 / Null)、Schemaマッピング(eg賃金/給与)、Entity統合(eg Mike Stonebraker / Michael)ストーンブレイカー)

Tamr、Alteryx、Trifacta、Paxata、Google Refineなど、この問題の解決に取り組んでいる企業/製品は数多くあります。

この分野が成熟するまで、データサイエンティストの多くの仕事は実際にデータの争いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.