私は、ロジスティック回帰とランダムフォレストを使用して、ローンのデフォルトの確率を分析しています。
私がロジスティック回帰を使用する場合、予測は常にすべて1です(これはローンが良いことを意味します)。私はこれを見たことがなく、問題を解決するためにどこから始めればよいかわかりません。60万行の22列があります。列の数を減らすと、ロジスティック回帰で同じ結果が得られます。
なぜロジスティック回帰はそれほど間違っているのでしょうか?
**Actual from the data**
0 : 41932
1 : 573426
**Logistic regression output**
prediction for 1 when actually 0: 41932
prediction for 1 when actually 1:573426
A**s you can see, it always predicts a 1**
**Random forests does better:**
actual 0, pred 0 : 38800
actual 1, pred 0 : 27
actual 0, pred 1 : 3132
actual 1, pred 1 : 573399
predict
確率モデルのsklearnで使用しないでください、それは役に立たないです。常にを使用しますpredict_proba
。