30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
私の質問は、出力の解釈方法です。
最終出力で、ゼロとは異なる係数を示すすべての予測変数が従属変数に関連していると言うのは正しいですか?
それは雑誌の出版物の文脈で十分な報告でしょうか?または、係数の有意性の検定統計量を提供することが期待されますか?(コンテキストは人間の遺伝学です)
有意性を主張するためにp値または他の検定統計量を計算することは合理的ですか?それはどのように可能でしょうか?Rに手順は実装されていますか?
すべての予測変数の単純な回帰プロット(線形近似でプロットされたデータポイント)は、このデータを視覚化するのに適した方法でしょうか?
誰かが実際のデータのコンテキストでLassoを使用していることを示す公開された記事の簡単な例を提供できますか?
cv
予測ステップにも使用できませんか?