私は興味のある結果が二分されglmnet
ているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。
age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7)
gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0)
bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88)
m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1)
p_edu <- c(0, 2, 2, 2, 2, 3, 2, 0, 0)
f_color <- c("blue", "blue", "yellow", "red", "red", "yellow", "yellow",
"red", "yellow")
asthma <- c(1, 1, 0, 1, 0, 0, 0, 1, 1)
# df is a data frame for further use!
df <- data.frame(age, gender, bmi_p, m_edu, p_edu, f_color, asthma)
上記のデータセットの列(変数)は次のとおりです。
age
(年の子供の年齢)-継続的gender
-バイナリ(1 =男性、0 =女性)bmi_p
(BMIパーセンタイル)-連続m_edu
(母親の最高教育レベル)-通常(0 =高校未満、1 =高校の卒業証書、2 =学士号、3 =学士号取得後の学位)p_edu
(父の最高教育レベル)-序数(m_eduと同じ)f_color
(お気に入りの原色)-名目(「青」、「赤」、または「黄」)asthma
(子喘息の状態)-バイナリ(1 =喘息; 0 =喘息なし)
この例の目的は、6つの潜在的な予測変数(のリストからモデル予測子の喘息の状態を作成するために、LASSOを活用することでage
、gender
、bmi_p
、m_edu
、p_edu
、およびf_color
)。明らかにサンプルサイズがここでの問題ですがglmnet
、結果がバイナリ(1 =喘息)の場合、フレームワーク内でさまざまなタイプの変数(連続変数、順序変数、名義変数、バイナリ変数)を処理する方法についてより多くの洞察を得ることを望んでいます; 0 =喘息なし)。
そのため、R
喘息の状態を予測するために上記のデータでLASSOを使用して、この模擬サンプルの説明とともにサンプルスクリプトを提供したいと思う人はいますか?非常に基本的ではありますが、私、そしておそらくCVの他の多くの人はこれを大いに評価するでしょう!
glmnet
バイナリの結果で実際に動作する例を見てみたかっただけです。
dput
の実際の Rオブジェクト。読者にケーキを焼くだけでなく、つや消しをさせないでください!Rで適切なデータフレームを生成する場合、たとえばfoo
、の出力を質問に編集しますdput(foo)
。