私の状況:
- 小さなサンプルサイズ:116
- バイナリ結果変数
- 説明変数の長いリスト:44
- 説明変数は私の頭の上から来ていませんでした。彼らの選択は文献に基づいていた。
- サンプルのほとんどの場合とほとんどの変数には欠損値があります。
選択した機能選択へのアプローチ:LASSO
Rのglmnetパッケージではglmnetルーチンを実行できません。これは、明らかにデータセットに欠損値が存在するためです。欠落しているデータを処理するにはさまざまな方法があるようですので、知りたいのですが。
- LASSOは、使用できる補完の方法に関して何らかの制限を課していますか?
- 補完法の最善策は何でしょうか?理想的には、SPSS(できれば)またはRで実行できるメソッドが必要です。
UPDATE1:以下の回答のいくつかから、補完法を検討する前に、より基本的な問題に対処していることが明らかになりました。それについてここに新しい質問を追加したいと思います。「該当なし」の値とグループラッソの使用法を処理するための定数値としてのコーディングと新しい変数の作成を示唆する答えについて:
- グループLASSOを使用すると、連続予測子に提案されたアプローチをカテゴリカル予測子にも使用できると思いますか?もしそうなら、私はそれが新しいカテゴリーを作成することと同等であると思います-これはバイアスを導入するかもしれないと警戒しています。
- RのglmnetパッケージがグループLASSOをサポートしているかどうか誰かが知っていますか?そうでない場合、誰かがロジスティック回帰と組み合わせてそれを行う別のものを提案しますか?LASSOグループについて言及しているいくつかのオプションがCRANリポジトリにあります。私の場合に最も適切な提案はありますか?たぶんSGL?
これは私の以前の質問に対するフォローアップです(ロジスティック回帰分析を実行するために、元の長いリストから変数のサブセットを選択する方法は?)。
OBS:私は統計学者ではありません。