結果に自信を抱くものは何ですか?上司の読み書きができない技術者に自分の作品を提示できるのはどの時点だと思いますか?


7

モデルが得られるデータと同じくらい優れていることを理解しています。設計が悪いと、本当に悪いデータが生成される可能性があります。非ランダムサンプリング、不均衡/不完全な設計、交絡は、データ分析を非常に困難にする可能性があります。

彼らが有用なモデルを実行したと確信できるのはどの時点ですか?トレーニング/テストデータセットで相互検証を行い、それを1日と呼びますか?明らかに「すべてのモデルが間違っている、いくつかは有用である」が、ある時点で、LASSOingによる過度のパラメーターの除外と、BICを下げることによる奇妙な変換とのトレードオフが明らかになります。

一日の終わりにtl; drを実行すると、「会社/プロジェクトに正しいことをしたので、これでうまくいく」

回答:


3

サイトへようこそ!

あなたが言っていることは正しいです、データサイエンスはこれを達成するためのいくつかの標準的な方法がある段階に到達しません(標準的な手順、私たちが近い将来その段階に到達できるかどうかわかりません)。ただし、次のような一般的な基準があります。

  1. 予測:ETS、ARIMA、SARIMAなど
  2. 予測:線形回帰、ランダムフォレスト、GLM、ニューラルネットワークなど
  3. 分類:ロジスティック回帰、ランダムフォレストなど

細かいレベルにすると、すべてのビジネス上の問題が異なり、1つの方法ですべてのビジネス上の問題を解決することはできないため、一般化することは困難です。

したがって、次の質問に答えるために、結果が十分良好であるという確信をどのように得るか、分類問題の予測および混同行列に関するRMSE、MAPEなどについて聞いたことがあると思います。これらのメトリックを使用して、モデルのパフォーマンスへのアクセスを確認します。たとえば、特定の細胞が癌細胞であるかどうかを分類しようとすると、90が非癌細胞で10が癌細胞であるレコードが100個あり、モデルは精度は99%ですが、9のうち5つを文字通り合計の55%に分類できます。このようなシナリオでは、精度を使用できず、F1スコアを使用する必要があります。モデルについて正しく尋ねたところ、すべてのモデルが役に立たない場合があります。確かに、構築されたすべてのモデルが生産レベルに進むわけではありません。最高のモデルを選択して生産します。モデルに基づいてモデルを再トレーニングできます(毎日、毎週、月額(ビジネス要件に基づく)。検証完了後の休日と呼びますか?私はそうしません。SubjectMatter Expertに行き、結果が洞察を求めていることを彼に提示します。両方がインラインである場合、実際のデータに対してベータテストを行ってから、それを生産します。

今、あなたの最後の質問に対処するために、これが良いか悪いかを言う標準はありません、それがあなたのために働くならば、あなたのビジネスはそれから良いモデルです。マネージャーと主題(データ)の専門家の便宜を図るために、データを深く掘り下げて、さまざまなシナリオをすべて試して、できるだけ多くの質問をする必要があります。データをよく理解してください。したがって、データを裏付ける回答でビジネスの質問に答えることができます(これは、データに問題がある場合にのみ可能です)。彼らはビジネスに関して非常に優れているので、ビジネスに関して質問をすることになるので、ビジネスとデータをよく理解することによって、そのようなすべてのシナリオに備える必要があります。

最後に、私はあなたのように感じています。私はたくさんのことをしましたが、何もうまくいきませんでしたが、これらが不成功の結果につながる方法であることを理解しているので、不満であってはなりません(最良の例は、Thomas Alva Edisonがタングステンを使用して球根を作る前に1000個の異なる金属を使用したことです) 。同様に、私たちが試した方法はすべて、解決策を得るために試したさまざまなステップです。私の基本は、毎日何か新しい/新しいことに挑戦したかどうかです。このプロセスの重要な部分は、すべてのステップで明確なドキュメントを維持することです。これは近い将来に役立つでしょう。

R&Dのすべてが無駄になることはありません。他の試みや実験にすぎないため、作業が無駄になることはありません。あなたの会社の明るい未来のための強固な基盤を構築しようとしています。


2

結果に自信を抱くものは何ですか?

実際の信号またはノイズをモデル化したかどうかを評価する適切な方法は、尋ねる質問と、それに対処するために使用したモデリングアプローチに完全に依存しています。このトピックについては、非常に分厚い本が数多く書かれており、問題のあるドメインやモデルのタイプ、あるいはその両方への注意が制限されていることがよくあります。モデル評価に関連する複雑さは、データサイエンティストが一般的に大学院の学位を取得する大きな理由です。これで、質問の2番目の部分に進みます。

上司の読み書きができない技術者に自分の作品を提示できるのはどの時点だと思いますか?

あなたのハイテク文盲の上司はあなたの分析を評価する方法を彼らに通知するような大学院の学位を持っていません。彼らはあなたが正直で正確な結果を提示することを信頼しています。統計に流暢ではない人々に、あなたが提示したいどんな物語も信じ込ませるのは非常に簡単です。結果が気密であるか、少なくともクライアントのリスク許容度と同期していることを確認するのはあなたの責任です。

結果を正しく解釈し、それらを明確に伝える方法の計画が整ったら、結果を共有する準備が整います。

結局のところ、「私は自分の会社/プロジェクトに対して正しいことをしたので、これでうまくいく」

  1. 私は自分の目標を達成するモデルを構築しました。
  2. 私のモデリングアプローチが適切で再現性があることに満足しています。予測タスクに取り組んでいる場合は、モデルがサンプル外のデータにうまく一般化されることも確認したいと思います。
  3. 私は自分のモデルを使用することの予測される影響を評価しました。モデルを適用することの利点が、私がモデルを構築するために費やしている時間と労力を正当化するものであると合理的に確信しています。
  4. 実装への明確な道筋があります。私の結果を実用化するための技術的な計画があり、それを実現するために誰のサポートが必要かを知っています。
  5. 私の結果が本物であり、彼らの懸念を和らげることを非技術的な利害関係者に納得させる方法で私の結果を伝えることができると私は確信しています。

1
たぶんあなたのリストにピアレビューの何らかの形を追加しますか?データサイエンスチームやビジネスインテリジェンスチームでどれほど一般的であるかはわかりませんが、これはソフトウェア開発の中心的な品質保証機能であり、非常に技術的な製品の問題と品質に依存するビジネスへの影響を共有しています。
Neil Slater
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.