現在、バイナリロジスティック回帰を使用して一部のデータをモデル化しています。従属変数には多くの正のケースと負のケースがあります-それはまばらではありません。また、トレーニングセットが大きく(> 100,000)、関心のある主な効果の数は約15であるため、p> nの問題は心配していません。
私が心配しているのは、予測変数の多くが、連続している場合、ほとんどの場合ゼロであり、名目上の場合、ほとんどの場合nullであることです。これらの疎な予測子変数が> 0(またはnullではない)の値を取る場合、データに精通しているため、これらの変数が私の陽性のケースを予測する上で重要であることを知っています。これらの予測子のスパース性がモデルにどのように影響するかについての情報を探しています。
特に、スパースではなく相関しているが、実際にはポジティブケースの予測がうまくいかない別の予測変数がある場合、スパースではあるが重要な変数の影響がモデルに含まれないようにしたいと思います。 。
例を示すと、誰かが特定のアイビーリーグの大学で受け入れられるかどうかをモデル化しようとしていて、私の3つの予測因子がSATスコア、GPA、およびバイナリとしての「寄付> 100万ドル」であった場合、私には理由があります。 「寄付> 100万ドル」は、真実である場合、受け入れを非常に予測するものであると信じることです。高いGPAやSATよりもはるかに高いですが、非常にまばらです。これが私のロジスティックモデルにどのように影響しますか?また、これを調整する必要がありますか?また、別のタイプのモデル(たとえば、決定木、ランダムフォレストなど)がこれをより適切に処理しますか?