モデルの解釈可能性とモデルの予測力のトレードオフを平易な言葉でどのように説明しますか?


7

データと質問に依存することはわかっていますが、特定のデータセットに対して、かなり複雑な非線形モデル(ただし解釈が難しい)を使用して、より優れた予測能力を提供できるシナリオを想像してください。データ内、または予測力は低くても解釈が簡単な単純なモデル(おそらく線形モデルなど)を持っています。これは、機械学習モデルを解釈する方法についてのアイデアを議論する非常に良い投稿です。

業界は非常に慎重ですが、より複雑なモデルの採用に徐々に関心を寄せています。それでも彼らはトレードオフを明確に知りたいですか?データサイエンティストは、おそらくデータチームと意思決定者の間に座っている人であり、これらのことを素人の言葉で説明できる必要があることがよくあります。

私はここでブレインストーミングをして、このようなトレードオフを非技術者に説明するためにどのような類推を思いつくかを確認しようとしていますか?


1
新しいアプローチは、解釈可能なモデルを重ね合わせることにより、モデルの複雑さを解釈可能性から切り離すことです。github.com/slundberg/shapを
Emre

それはとてもエキサイティングです。SHAPは@Emreを共有してくれてありがとう。
TwinPenguins

回答:


1

興味深い質問です。さまざまなユースケースについて考えることで、これを説明できると思います。私が好きだと聞いた1つの例は、ローン申請の貸付決定に関するものです。これはアルゴリズムですが、規制により、厳密に「ブラックボックス」にすることはできません。銀行はあなたにローンを断る理由を与えなければならないので、決定は事実上、解釈可能でなければなりません。それで、バイナリの結果を与えることができるローンのためのより良いアルゴが確かにそこにありますが、あなたは銀行にあなたに単にイエスかノーと言わせたいですか?


1

自問できるもう1つの質問は、入力とそれらの関係、およびそれらの入力への変更が結果(予測)にどのように影響するかについての情報を提供するような方法でシステムを理解するというビジネス目標があるかどうかです。

私が取り組んだこの問題に該当する問題の最近の例は、チャネル(テレビ、ラジオ、デジタル)による支出を使用して、月(週、日)ごとに市場のリード数を予測することです。ここでの目標は、特定の支出で生成される見込み客の数を予測することだけでなく、支出の分布に関する見込み客の生成を最適化するために使用するフレームワークを用意することでもありました(つまり、テレビ、ラジオ、およびデジタルで最大数のリードを生成します)。このビジネス要件のため、ニューラルネットワークまたはSVMは目標を達成しませんでした。なぜなら、それらはリードジェネレーションの予測を提供する一方で、入力(チャネルごとに費やす)の理解を提供しなかったためです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.