LASSOを使用して、いくつかの候補予測子でモデル選択を行い、継続的な結果を得ようとしています。目標は、最高の予測パフォーマンスを備えた最適なモデルを選択することです。これは、通常、LASSOからチューニングパラメーターのソリューションパスを取得した後、K分割交差検証によって実行できます。ここでの問題は、データがクラスターのサンプリングと層別化を伴う複雑な多段階調査計画(NHANES)からのものであることです。glmnet
Rではサンプリングの重みを取得できるため、推定部分は難しくありません。しかし、観測値はもはやiidではないので、相互検証部分はあまり明確ではありません。また、プロシージャは、有限母集団を表すサンプリングの重みをどのように説明できますか?
だから私の質問は:
1)最適な調整パラメーターを選択するために、複雑な調査データでK分割交差検証を実行するにはどうすればよいですか?具体的には、サンプルデータをトレーニングと検証のセットに適切に分割する方法を教えてください。そして、予測誤差の推定値をどのように定義しますか?
2)最適な調整パラメーターを選択する別の方法はありますか?