バイナリ応答と連続応答を組み合わせる最良の方法


10

集金代行の支払い金額を予測する最良の方法を考え出そうとしています。従属変数は、支払いが行われたときにのみ非ゼロになります。当然のことながら、ほとんどの人は到達できないか、借金を返済できないため、圧倒的な数のゼロがあります。

また、負債額と支払いの確率の間には非常に強い負の相関があります。通常、私は給与/不給の確率を予測するためにロジスティックモデルを作成しますが、これは最低の残高を持つ人々を見つけるという残念な結果をもたらします。

ロジスティックペイ/ノンペイモデルを、支払い金額を予測する別のモデルと組み合わせる方法はありますか?


5
インフレーションがゼロの対数正規回帰があり、ニーズに合っているようです。このペーパーを
ピーターフロム-モニカの復活

@PeterFlomこれは、2段階モデル​​とサンプル選択バイアスに関するgui11aumeとsteffenの議論と比較してどう思いますか?
As3adTintin 2018年

1
どちらも役に立ちます。2つを比較する議論がありましたが、どこで読んだか忘れてしまいました。
ピーターフロム-モニカの

私がやったことは、出力のreluアクティブ化と平均二乗対数損失を伴うニューラルネットワークを作成することでした
Zelazny7

わかりました。ニューラルネットワーク/ Reluのアクティベーションは私の現在の知識を超えて聞こえますが、これらについては引き続き調べていきます。元の質問とコメントをありがとう
As3adTintin 2018年

回答:


6

2段階モデル​​を構築するというgui11aumeの考え方は正しい方法ですが、債務額と支払いの確率との間の非常に強い負の相関関係であるセットアップの特別な困難を考慮する必要があります

ここで2段階モデル​​を構築する際の主な問題は、2番目のモデル(負債の予測用)が「非ゼロ」のみに基づいて構築される場合、母集団の最も可能性の高い非ランダムサンプル(つまり、データセット全体)ですが、結合されたモデルを母集団全体に再度適用する必要があります。つまり、2番目のモデルでは、これまでにないデータの一部を予測する必要があり、精度が失われます。これはサンプル選択バイアスと呼ばれます(MLの観点からの概要については、スミスとエルカンによる拒否推論のためのベイジアンネットワークフレームワークをお勧めします)。

KDDカップ-98は、 1は、ベテランの組織のためのドナーはおそらく再び寄付するとどのくらい寄付する可能性があるかどうかを予測する必要があり、同様の問題に対処しました。このデータセットでは、再度寄付する確率も予想される金額と負の相関がありました。サンプル選択バイアスも表示されました。

最も印象的だった解決策、Bianca ZadroznyとCharles Elkanによる、コストと確率の両方が不明な場合の学習と意思決定にあります。彼らはヘックマン補正に基づくコストに敏感なソリューションを作成しました。これは、私の知る限り、(サンプル)選択バイアスを補正する最初の体系的なアプローチです。


+1 2番目の段落は、私の答えに欠けているものを非常にうまく強調しています。
gui11aume 2012

これは、ゼロ膨張した対数正規回帰のピーターフロムの提案とどのように比較しますか?
As3adTintin 2018年

3

これは非常に良い質問です(+1)。

0をNAのように扱ってみませんか?

お金が回収されたかどうかを示すダミーの応答(つまり、値が0の場合は0、値が正の場合は1)を追加し、同じ予測子を使用してこのバイナリ応答にロジスティックモデルを当てはめることができます。すべてのデータポイントを使用するバイナリ応答と、0以外のデータポイントのみを使用する連続応答(0をNAとして処理するという考え方)の2つのモデルを適合させます。

各モデルのパラメーターの無効性を引き続きテストし、両方のパラメーターセットを使用して期待されるゲインを計算できます。


提案ありがとうございます。私の質問の前に、私はあなたが説明したのと同様の2つの従属変数とデータセットを作成しました。「それでもパラメーターの無効性」の意味を詳しく説明していただけますか?ありがとう!
Zelazny7 2012

「それでもパラメータの無効性」は、テキストで修正したタイプミスでした。申し訳ありません:-)
gui11aume
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.