データサイエンス、機械学習、およびすべてのサクセスストーリーに関連するすべての問題により、データサイエンティストとその予測モデルからの正当化された期待と過剰な期待の両方があります。
統計学者、機械学習の専門家、データサイエンティストの実践に対する私の質問は、特にモデルの予測精度に関して、社内のビジネスマンからの期待をどのように管理していますか?簡単に言えば、最高のモデルが90%の精度しか達成できず、上級管理職が99%以上を期待している場合、このような状況をどのように処理しますか?
データサイエンス、機械学習、およびすべてのサクセスストーリーに関連するすべての問題により、データサイエンティストとその予測モデルからの正当化された期待と過剰な期待の両方があります。
統計学者、機械学習の専門家、データサイエンティストの実践に対する私の質問は、特にモデルの予測精度に関して、社内のビジネスマンからの期待をどのように管理していますか?簡単に言えば、最高のモデルが90%の精度しか達成できず、上級管理職が99%以上を期待している場合、このような状況をどのように処理しますか?
回答:
合理的なビジネスマンは正確性にお金を払うのではなく、
そのため、実施されるプロジェクトはすべて、これを反映した用語で表現する必要があります。最初のステップは、作業中の2つのプロセスのどちらかを常に理解することです。どのように達成できるかを明確に理解する必要があります。
プロセスの精度を向上させることができれば、おそらく会社のためにお金を稼ぐことができ、ビジネスマンはあなたの進歩に投資するでしょう。事業者が99%の精度を主張し、90%を拒否することができる唯一の合理的な理由は、90%よりも優れた方法をすでに持っている場合です。もしそうなら、彼らはもちろん彼らの立場で正当化されます。
ビジネスピープルが理解している用語で作業中のプロジェクトのビジネスケースを理解して提示することは、エンジニアの成熟プロセスの一部です。少なくとも今日の環境では、データサイエンスにはいくつかのユニークな側面がありますが(成熟度は低いが、強力なセレンディピティが発見される可能性が高いなど)、データサイエンスにはまったくユニークではありません。
このステップを明示的にするData Scienceに近い関連プロセスは、https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Miningにあります。
ただし、ほとんどのエンタープライズアーキテクチャフレームワークも同様に適用できます。
競争相手を集める。最新技術を試してみて、モデルとそれを比較してみてください。また、チームが作業に費やした時間にも大きく依存します。科学主導のモデルは静的に作成されるのではなく、優れた科学者が常にそれを改善する方法を探そうとするため、動的に開発されます。
上級管理職は、データサイエンティストが新しい方法を探求することを知っている必要があります。機械学習の手法では、すぐに完全なモデルが生成されるわけではないことを理解する必要があります。そうした場合、それはとにかく挑戦ではありません。
データサイエンティストは、結果を正当化し議論する方法と、将来の計画方法によって評価されるべきです。管理担当者が期待どおりに処理する方法は、非現実的に高いものを持たないことです。
それでも、コンテキストの分野で合理的な結果が期待される場合は、次の質問について考えてください。
この質問は、すべての組織に存在する政治に影響を与えるため、気に入っています。私の見解では、かなりの程度まで、モデルのパフォーマンスに関する期待は、組織の文化と、組織が「技術的に読み書きできる」度合いの関数です。私が言っていることを明確にする1つの方法は、4つの大きな「データサイエンス」エンティティ(Google、FB、Amazon、Yahoo)と4つの大きな代理店保有エンティティ(WPP、Omicon、Interbrand、Publicis)の違いを考慮することです。Googleなどは、非常に技術的な知識があります。一方、代理店はハイテク恐怖症に傾いていることが知られています。これの証拠は何ですか?まず、技術的にリテラシーのあるグループは、エンジニア、コンピューターサイエンティスト、オタク、およびハイテクのバックグラウンドを持つ人々によって設立または運営されています。テクノロジーの文盲企業を運営しているのは誰ですか?ソフトコミュニケーションと人々のスキルのおかげで著名になったマーケティング担当者。それだけでなく、ニューヨークのこれらの店のいくつかで働いたことがあるので、これらの組織は、文化に「適合」していないとして、高度に技術的にリテラシーのあるタイプを体系的に罰したり押し出したりすることを証言できます。次に、彼らの総(株式)時価総額を考えてみましょう。技術リテラシーグループは合計で約8000億ドルになりますが、技術リテラシーグループは800億ドルになります。ハイテクリテラシーエンティティは、時価総額で他の10倍です。これは市場の期待の明確な声明であり、文盲の人にとっては高くありません。だから、外挿によって、これらのようなボゾの「予測精度」の期待に挑戦するために、あなたはどのような希望を持つことができますか?NYCのこれらの店舗のいくつかで働いたことがあるので、これらの組織は文化に「適合」していないものとして高度に技術的にリテラシーのあるタイプを体系的に罰したり押し出したりすることを証言できます。次に、彼らの総(株式)時価総額を考えてみましょう。技術リテラシーグループは合計で約8000億ドルになりますが、技術リテラシーグループは800億ドルになります。ハイテクリテラシーエンティティは、時価総額で他の10倍です。これは市場の期待の明確な声明であり、文盲の人にとっては高くありません。だから、外挿によって、これらのようなボゾの「予測精度」の期待に挑戦するために、あなたはどのような希望を持つことができますか?NYCのこれらの店舗のいくつかで働いたことがあるので、これらの組織は文化に「適合」していないものとして高度に技術的にリテラシーのあるタイプを体系的に罰したり押し出したりすることを証言できます。次に、彼らの総(株式)時価総額を考えてみましょう。技術リテラシーグループは合計で約8000億ドルになりますが、技術リテラシーグループは800億ドルになります。ハイテクリテラシーエンティティは、時価総額で他の10倍です。これは市場の期待の明確な声明であり、文盲の人にとっては高くありません。だから、外挿によって、これらのようなボゾの「予測精度」の期待に挑戦するために、あなたはどのような希望を持つことができますか?彼らの総(株式)時価総額を考慮して、技術リテラシーグループは合計で約8000億ドルになり、技術リテラシーグループは800億ドルになります。ハイテクリテラシーエンティティは、時価総額で他の10倍です。これは市場の期待の明確な声明であり、文盲の人にとっては高くありません。だから、外挿によって、これらのようなボゾの「予測精度」の期待に挑戦するために、あなたはどのような希望を持つことができますか?彼らの総(株式)時価総額を考慮して、技術リテラシーグループは合計で約8000億ドルになり、技術リテラシーグループは800億ドルになります。ハイテクリテラシーエンティティは、時価総額で他の10倍です。これは市場の期待の明確な声明であり、文盲の人にとっては高くありません。だから、外挿によって、これらのようなボゾの「予測精度」の期待に挑戦するために、あなたはどのような希望を持つことができますか?
そのため、文化的なブレイクアウトを考え、あなたが転倒する場所に応じて、多かれ少なかれ現実的な期待を持つべきです。もちろん、さまざまな「技術非識字」エンティティには、彼らが何をしているのかを知っているマネージャーがいますが、ほとんどの場合、これらのエンティティは技術スキルの最も一般的な分母の愚かさによって支配されています。半読み書き(および危険)またはより一般的には完全に無数ですが、それを知りません。適切な例として、私はc-suiteデッキから「相関関係」のような言葉を消したい人のために働いていました。これは極端な場合です。結局のところ、すべての秘書は「相関」が何であるかを知っています。
これは、「99%の予測精度が得られないのはなぜか」などの本当に馬鹿げた質問をするとき、気が遠くなるほど素朴で無数の人をどう扱うかという問題を提起します。良い回答の1つは、「なぜこのような非現実的に高いPAが可能だと思われるのでしょうか?」などの質問に答えることです。もう1つは、「実際に99%のPAを得た場合、何か間違ったことをしていると想定していたからです」。これは、PAが90%であっても当てはまる可能性が高いです。
モデル値の唯一の基準としてのPAの主張には、より根本的な問題があります。故Leo Breimanは、PAがその1つである統計的および予測的なモデリングコミュニティに多くの足跡を残しました。PAに関する彼の主な関心は、単一のCARTツリーの実行に内在する不安定性とエラーに関する90年代の多くの批判に対処することでした。彼の解決策は、「ランダムフォレスト」を、ツリー構造を排除することで精度を最大化し、不安定性を減らす近似的かつ暫定的な方法として動機付けることでした。彼は、単一のロジスティック回帰モデルからのエラーに対して、約1,000の反復RF「ミニモデル」からより低いMSEをベンチマークしました。唯一の問題は、リンゴとオレンジの比較をはっきりと言及することを決して気にかけなかったことです。
2008年のNetflix賞は、レコメンダーシステムのMSEを改善できる統計学者またはチームに相当な金銭的報酬を提供しました。当時、Netflixはこのシステムに年間1億5,000万ドルを費やしており、顧客の忠誠心や映画の購入では本来なら決して選ばれなかったであろう費用が回収される以上であると確信していました。最終的な受賞者は、107の異なるモデルの複雑なアンサンブルを使用しました。
しかし、Netflixが学んだように、本当の問題は、完全にロードされたコストの観点から、現在のモデルに対する実際の誤差の改善は、5ポイント定格のわずか0.005%の削減であるということでした。当然ながら、107のモデルの勝利アンサンブルの時間、重荷、メンテナンスのITコストが、エラー削減による利益をすべて無効にしたことは言うまでもありません。これを考慮して、Netflixは最終的にMSEの追求を放棄し、Netflix賞はこれ以上授与されませんでした
そしてこれがポイントです:予測エラーを最小限に抑えることは簡単にゲームやPハッキングができ、アナリストの詐欺になりやすい(つまり、アナリストのモデリングスキルを賞賛するソリューションを見つけ、年末のボーナスにプラスの影響を与える)。さらに、それは完全に統計的な解決策であり、経済的およびビジネス上の空白で設定された目標です。このメトリックは、付随的な担保費用をほとんど、またはまったく考慮しません。完全にロードされた、トレードオフに基づく意思決定プロセスの不可欠な部分であるAからZまで評価される非常に現実的な運用結果です。
これは、組織に組み込まれている問題の1つになっており、変更するのは非常に困難です。言い換えれば、私は、PAの使用に関する注意事項について、この暴言で風車を傾けていることを完全に認識しています。