完全な開示:これは宿題です。データセットへのリンクを含めました(http://www.bertelsen.ca/R/logistic-regression.sav)
私の目標は、このデータセットのローン債務不履行の予測を最大化することです。
私がこれまでに考え出したすべてのモデルは、非デフォルト者の90%を超えると予測していますが、デフォルト値の40%未満は全体として分類効率を最大80%にします。だから、変数間に相互作用効果があるのだろうか?ロジスティック回帰では、考えられる各組み合わせをテストする以外に、潜在的な相互作用効果を特定する方法はありますか?あるいは、債務不履行者の分類の効率を高める方法。
私は立ち往生しています。推奨事項は、単語、Rコード、またはSPSS構文の選択に役立ちます。
私の主な変数は、次のヒストグラムと散布図で概説されています(二項変数を除く)
主な変数の説明:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
追加の変数は、上記の単なる変換です。また、いくつかの連続変数をカテゴリ変数に変換し、モデルに実装してみましたが、うまくいきませんでした。
Rにポップしたい場合は、すぐに次のようになります。
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)