新しいデータサイエンティストのためのヒント


8

大規模なデータセットを扱う仕事を始めようとしています。傾向などを見つけることが期待されます。MLやその他のハードスキルを習得するための多くのリソースを見つけ、自分が(半)この目的のために有能。

データサイエンティストとして役立つ特定のソフトスキルがあるかどうか知りたいです。 始めに知っておきたいことは何ですか?

Kaggleは学習に非常に役立ちますが、明確な目的も示します。 データセットが与えられたが、明確な目的がない場合、どのように対処しますか?

これが広すぎる場合は、もっと具体的な質問を考えます。


3
ヒント#1:燃える犬をペットにしないでください
Brandon Loudermilk

1
よろしければ、現在の業界を共有してください。数学と概念は同じですが、データの構造はさまざまであり、データへの取り組み方も異なります。以下のアドバイスは非常に適切であり、実践すれば大きな助けになるでしょう。業界を知ることで、あなたが直接関係できる何かを共有できるといいのですが。
Drj

この仕事のためにあなたにインタビューした人は誰でもこれを読んでいて、「なぜ私たちはインタビューでそれらの質問をしなかったのですか?」
Spacedman、2016年

Drj、私は一部は製造プロセスからのデータを扱い、一部は顧客のフィードバックデータを扱います。広いスペクトルのようです。私は自分の実験によってデータが作成された学界出身で、非常に明確な目標を持っていました。
ホッブズ2016年

回答:


7

データサイエンスドメインには、考慮すべき重要なソフトスキルがたくさんあると思います。

それらの一部を次に示します。

  1. 特定の目標がすべてではなかったときに、データのラングリング、モデル、視覚化、レポートに多くの時間を費やすことは、目標が何であるかを知っていることは無駄です。あまり技術的でない人々とコミュニケーションを取ること自体がスキルです。
  2. 製品所有者と繰り返し繰り返します。あなたが正しい道にいることを確認してください。
  3. データが彼らが考えた/彼らが彼らに彼らがそうしたいと思った物語を伝えていない場合、それは事実ではありません、なぜこれが起こっているのか、どのバイアスが役割などを果たしているのかを明確にしてください。希望する結果を得るために、すべての種類のフィルターを適用したり、パラメーターを変更し続けたりしないでください。

2番目の質問について:

目的は、製品の所有者から明示的に取得するか、数学的な目的から導出する必要があります。たとえば、いくつかの機能に基づいて列車の到着を予測する必要がある場合などです。彼らは、モデルが10分のエラー範囲内で可能な限り何度も予測することを望んでいます。これは比較的明白です。

時にはそれよりも明確ではないかもしれませんが、可能な限り正確である必要があると彼らは言うかもしれません。次に、最適化するものを決定する必要があります。場合によっては、これはMSEを最小化するだけですが、他の場合には、他のことがより適切な場合があります。通常、これは暗黙の目的と、より多くの経験でより上手になるものから明らかです。暗黙的目的と明示的目的の両方が、製品所有者との明確なコミュニケーションから派生します。


コメントをありがとう、技術の低い人とのコミュニケーションについてのあなたのアドバイスは本当に役に立ち、間違いなく私が取り組む必要があるものだと思います。
ホッブズ2016年

私も目的に関するいくつかの情報を追加しました
Jan van der Vegt 2016年

とても助かります。これを心がけていきます。(私はより高い評判を得るまで賛成投票できないと思います)
ホッブズ2016年

5

「データセットが与えられたが、明確な目的がない場合、どのように対処しますか?」

これは一般的です。

上記のアドバイスとは別に、現在のビジネスの目標と直接のクライアントの目標を理解することが不可欠であることを理解してください。多くの場合、彼らは彼らがするよりもデータに向いている特定の問題を理解する必要があります。内部クライアントまたは外部クライアントからデータと不明確な目的が提示されることは非常に一般的です。通常、データで達成できる目標を提供し、クライアントの実際のビジネス上の問題を解決するのがあなたの仕事です。データの結果とビジネスソリューションを一致させるには、ある程度の側面的思考が必要になります。

上記を要約すると、「目的を定義することは、クライアント(単独)に任せるにはあまりに重要(そしておそらく非常に難しい)です」と要約します。

機械学習のコンテキストでは、CRISP-DMは、ループを反復してこの問題を解決しようとする方法論であり、クライアントとのディスカッションで追加のデータ理解を使用して、元の問題をよりよく理解できます。したがって、たとえば、彼らは明確に定義されていない目標を述べているかもしれません。EDAを行った後の2回目の議論は、それを少し鋭くします。後でうまく機能するが、適切な目標に達していないモデルを後で作成すると、再び実際のビジネス目標に近づきます。

言い換えれば、タスクのあいまいさにあまり邪魔されないようにしてください。真空に遭遇し、あなたの利益のためにそれを満たしてください。

これは少し横方向のシフトですが、シックスシグマの方法論は、DMAICシステム(「顧客の声」に関して「定義」を表す「D」)とは異なる状況でこの問題を解決しようとします。 6シグマコンテキストのリソースでいくつかのヒントを収集できる可能性があります(たとえば、クライアントで実行できる演習で、クライアントが望むものをより明確に表現できるようにします)


ありがとう、それは素晴らしいフィードバックです。私は特に、「目的を定義することが重要であり、クライアントにとって(一人で)任せるには難しすぎる!」と言っています。私は間違いなくCRISP-DMを調べます。
ホッブズ2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.