スパース予測子変数を使用したロジスティック回帰

8

現在、バイナリロジスティック回帰を使用して一部のデータをモデル化しています。従属変数には多くの正のケースと負のケースがあります-それはまばらではありません。また、トレーニングセットが大きく（> 100,000）、関心のある主な効果の数は約15であるため、p> nの問題は心配していません。

私が心配しているのは、予測変数の多くが、連続している場合、ほとんどの場合ゼロであり、名目上の場合、ほとんどの場合nullであることです。これらの疎な予測子変数が> 0（またはnullではない）の値を取る場合、データに精通しているため、これらの変数が私の陽性のケースを予測する上で重要であることを知っています。これらの予測子のスパース性がモデルにどのように影響するかについての情報を探しています。

特に、スパースではなく相関しているが、実際にはポジティブケースの予測がうまくいかない別の予測変数がある場合、スパースではあるが重要な変数の影響がモデルに含まれないようにしたいと思います。。

例を示すと、誰かが特定のアイビーリーグの大学で受け入れられるかどうかをモデル化しようとしていて、私の3つの予測因子がSATスコア、GPA、およびバイナリとしての「寄付> 100万ドル」であった場合、私には理由があります。「寄付> 100万ドル」は、真実である場合、受け入れを非常に予測するものであると信じることです。高いGPAやSATよりもはるかに高いですが、非常にまばらです。これが私のロジスティックモデルにどのように影響しますか？また、これを調整する必要がありますか？また、別のタイプのモデル（たとえば、決定木、ランダムフォレストなど）がこれをより適切に処理しますか？

— クリスチャン
ソース

2

1）L1正則化により、データの欠如を回避できます。

2）データのサブサンプリングとオーバーサンプリングを試すこともできます（前に使用したサンプリング比に基づいて結果を調整することを忘れないでください）。

3）モデルは、さまざまな変数の重要性も考慮します。

— アーピットシソディア
ソース

0

データに少し不確実性が伴う場合は、スパース予測変数の周りに信頼水準を作成できます。あなたの例では、カテゴリ変数は次のとおりです：

0 =寄付されていない> 100万ドル

1 =寄付の可能性あり> 100万ドル

2 =確実に寄付> 100万ドル

これは過去に私にはうまくいきました

— ビージー
ソース