「推論の拒否」とは何ですか?また、それを使用してモデルの精度を高めるにはどうすればよいですか?


10

誰でも詳細に説明できますか:

  1. 推論の拒否とはどういう意味ですか?
  2. モデルの精度を上げるためにどのように使用できますか?

クレジットカードアプリケーションで推論を拒否するという考えはありますが、モデルの精度を上げるためにそれを使用することについての考えに苦労しています。

回答:


23

信用モデルの構築では、推論の拒否は、申請プロセスで拒否された信用口座のパフォーマンスを推論するプロセスです。

アプリケーションの信用リスクモデルを構築するときは、「ドアを介して」適用できるモデルを構築する必要があります。つまり、すべてのアプリケーションデータを信用リスクモデルに入力し、モデルがリスクレーティングまたは確率を出力します。デフォルトの。回帰を使用して過去のデータからモデルを構築する場合の問題は、過去の承認されたアプリケーションについてのみアカウントのパフォーマンスを把握していることです。ただし、申請後にドアに送り返したため、拒否のパフォーマンスはわかりません。これにより、モデルで選択バイアスが発生する可能性があります。モデルで過去の「承認」のみを使用する場合、モデルは「ドアを介した」母集団ではうまく機能しない可能性があるためです。

拒絶推論に対処する方法はたくさんありますが、それらはすべて物議を醸しています。ここでは簡単な2つの方法について説明します。

  • 「過去の拒否を悪いものとして定義する」
  • 小包

「過去の拒否を悪いものとして定義する」とは、拒否されたすべてのアプリケーションデータを取得し、モデルの構築時に破棄するのではなく、それらすべてを悪いものとして割り当てます。この方法は、モデルを過去の承認/拒否ポリシーに大きく偏らせます。

「小包」はもう少し洗練されています。それはで構成されています

  1. 過去の「受け入れ」で回帰モデルを構築する
  2. モデルを過去の拒否に適用して、リスク評価を割り当てます
  3. 各リスクレーティングのデフォルトの予想確率を使用して、拒否されたアプリケーションを良好または不良に割り当てます。たとえば、リスクレーティングのデフォルトの確率が10%で、このリスクレーティングに該当する100の拒否されたアプリケーションがある場合、10の拒否を「悪い」に、90の拒否を「良い」に割り当てます。
  4. 承認されたアプリケーションを使用して回帰モデルを再構築し、拒否されたアプリケーションの推定されたパフォーマンス

ステップ3で良いか悪いかの割り当てを行うにはさまざまな方法があり、このプロセスは繰り返し適用することもできます。

前に述べたように、拒否推論の使用は物議を醸すものであり、モデルの精度を高めるためにそれをどのように使用できるかについて簡単な答えを出すことは困難です。この件については、他の人を引用するだけです。

Jonathan CrookとJohn Banasik、Reject推論は本当にアプリケーションスコアリングモデルのパフォーマンスを向上させますか?

第1に、却下された申請者の割合が非常に高い場合でも、承認された申請者についてのみパラメーター化されたモデルを改善する余地は控えめに見えます。拒否率がそれほど大きくない場合、その範囲は非常に小さいように見えます。

デビッドハンド、「信用業務における直接推論」、クレジットスコアリングハンドブック、2001年に掲載

いくつかの方法が提案され、使用されていますが、それらのいくつかは明らかに貧弱であり、推奨されるべきではありませんが、追加情報が得られない限り、普遍的な適用性に固有の最良の方法はありません。つまり、最良の解決策は、拒否地域に該当する申請者に関する情報を(おそらく、一部の潜在的な拒否にローンを付与することによって)取得することです。


1
広範な概要のための+1。今や私は推論の拒否が何であるかも知っています:)
mpiktas

1
ありがとう。しかし、ステップ3でどのように割り当てますか?私は、1または0を使用するというインスタッドで、各ラインの確率を使用できることを読みました。つまり、10%と90%の同じ人物がいます。これは、新しいロジスティックモデルの作成とどのように連携しますか?
GabyLP 2015年

1

以前のコメントの@GabyLP。私の経験に基づいて、そのようなクライアントを2つの部分に分割し、確率に従って両方の分割に重みを割り当てることができます。たとえば、拒否されたクライアントのPDが10%の場合、このクライアントから2つのクライアントを作成できます。最初にターゲット変数1と重み0.1があり、2番目にターゲット変数0と重み0.9があります。

クライアントの受け入れられたサンプル全体の重みは== 1になります。

これはロジスティック回帰では機能しますが、ツリーベースのモデルでは機能しません。


発言の情報源はありますか?
T.ベージュ

質問がツリーベースのモデルで機能しないことについての場合、私の答えは-個人的な経験です。私はこのアプローチを実装しようとしましたが、成功していません。
MiksL 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.