2段階モデルを構築するというgui11aumeの考え方は正しい方法ですが、債務額と支払いの確率との間の非常に強い負の相関関係であるセットアップの特別な困難を考慮する必要があります
ここで2段階モデルを構築する際の主な問題は、2番目のモデル(負債の予測用)が「非ゼロ」のみに基づいて構築される場合、母集団の最も可能性の高い非ランダムサンプル(つまり、データセット全体)ですが、結合されたモデルを母集団全体に再度適用する必要があります。つまり、2番目のモデルでは、これまでにないデータの一部を予測する必要があり、精度が失われます。これはサンプル選択バイアスと呼ばれます(MLの観点からの概要については、スミスとエルカンによる拒否推論のためのベイジアンネットワークフレームワークをお勧めします)。
KDDカップ-98は、 1は、ベテランの組織のためのドナーはおそらく再び寄付するとどのくらい寄付する可能性があるかどうかを予測する必要があり、同様の問題に対処しました。このデータセットでは、再度寄付する確率も予想される金額と負の相関がありました。サンプル選択バイアスも表示されました。
最も印象的だった解決策は、Bianca ZadroznyとCharles Elkanによる、コストと確率の両方が不明な場合の学習と意思決定にあります。彼らはヘックマン補正に基づくコストに敏感なソリューションを作成しました。これは、私の知る限り、(サンプル)選択バイアスを補正する最初の体系的なアプローチです。