サイトへようこそ!
あなたが言っていることは正しいです、データサイエンスはこれを達成するためのいくつかの標準的な方法がある段階に到達しません(標準的な手順、私たちが近い将来その段階に到達できるかどうかわかりません)。ただし、次のような一般的な基準があります。
- 予測:ETS、ARIMA、SARIMAなど
- 予測:線形回帰、ランダムフォレスト、GLM、ニューラルネットワークなど
- 分類:ロジスティック回帰、ランダムフォレストなど
細かいレベルにすると、すべてのビジネス上の問題が異なり、1つの方法ですべてのビジネス上の問題を解決することはできないため、一般化することは困難です。
したがって、次の質問に答えるために、結果が十分良好であるという確信をどのように得るか、分類問題の予測および混同行列に関するRMSE、MAPEなどについて聞いたことがあると思います。これらのメトリックを使用して、モデルのパフォーマンスへのアクセスを確認します。たとえば、特定の細胞が癌細胞であるかどうかを分類しようとすると、90が非癌細胞で10が癌細胞であるレコードが100個あり、モデルは精度は99%ですが、9のうち5つを文字通り合計の55%に分類できます。このようなシナリオでは、精度を使用できず、F1スコアを使用する必要があります。モデルについて正しく尋ねたところ、すべてのモデルが役に立たない場合があります。確かに、構築されたすべてのモデルが生産レベルに進むわけではありません。最高のモデルを選択して生産します。モデルに基づいてモデルを再トレーニングできます(毎日、毎週、月額(ビジネス要件に基づく)。検証完了後の休日と呼びますか?私はそうしません。SubjectMatter Expertに行き、結果が洞察を求めていることを彼に提示します。両方がインラインである場合、実際のデータに対してベータテストを行ってから、それを生産します。
今、あなたの最後の質問に対処するために、これが良いか悪いかを言う標準はありません、それがあなたのために働くならば、あなたのビジネスはそれから良いモデルです。マネージャーと主題(データ)の専門家の便宜を図るために、データを深く掘り下げて、さまざまなシナリオをすべて試して、できるだけ多くの質問をする必要があります。データをよく理解してください。したがって、データを裏付ける回答でビジネスの質問に答えることができます(これは、データに問題がある場合にのみ可能です)。彼らはビジネスに関して非常に優れているので、ビジネスに関して質問をすることになるので、ビジネスとデータをよく理解することによって、そのようなすべてのシナリオに備える必要があります。
最後に、私はあなたのように感じています。私はたくさんのことをしましたが、何もうまくいきませんでしたが、これらが不成功の結果につながる方法であることを理解しているので、不満であってはなりません(最良の例は、Thomas Alva Edisonがタングステンを使用して球根を作る前に1000個の異なる金属を使用したことです) 。同様に、私たちが試した方法はすべて、解決策を得るために試したさまざまなステップです。私の基本は、毎日何か新しい/新しいことに挑戦したかどうかです。このプロセスの重要な部分は、すべてのステップで明確なドキュメントを維持することです。これは近い将来に役立つでしょう。
R&Dのすべてが無駄になることはありません。他の試みや実験にすぎないため、作業が無駄になることはありません。あなたの会社の明るい未来のための強固な基盤を構築しようとしています。