LASSO後の複雑な調査データの相互検証


11

LASSOを使用して、いくつかの候補予測子でモデル選択を行い、継続的な結果を得ようとしています。目標は、最高の予測パフォーマンスを備えた最適なモデルを選択することです。これは、通常、LASSOからチューニングパラメーターのソリューションパスを取得した後、K分割交差検証によって実行できます。ここでの問題は、データがクラスターのサンプリングと層別化を伴う複雑な多段階調査計画(NHANES)からのものであることです。glmnetRではサンプリングの重みを取得できるため、推定部分は難しくありません。しかし、観測値はもはやiidではないので、相互検証部分はあまり明確ではありません。また、プロシージャは、有限母集団を表すサンプリングの重みをどのように説明できますか?

だから私の質問は:

1)最適な調整パラメーターを選択するために、複雑な調査データでK分割交差検証を実行するにはどうすればよいですか?具体的には、サンプルデータをトレーニングと検証のセットに適切に分割する方法を教えてください。そして、予測誤差の推定値をどのように定義しますか?

2)最適な調整パラメーターを選択する別の方法はありますか?


多分リサンプリング(例えば、ブートストラップ)はk fold cvの代わりにより適切な手順でしょうか?
g3o2 2017年

Lumley氏は、「ブートストラップの理論は、各階層内での等確率サンプリングの状況についてのみ開発されたものであり、任意の確率でどの程度うまく機能するかは明らかではない」と警告しています。(28)NHANESデータは、層内で等確率サンプリングを行っていないようです。
Dan Hicks

OPからこの小さな詳細を知ることは興味深いでしょう。多段クラスターと層別サンプリングの複雑さを理解していない...
g3o2

@Dan Hicks:本当に重要だとは思いません。リサンプリングするとき、まったく同じサンプル計画の複数のインスタンスを複製します。
g3o2 2017

ここで説明する方法のようなものを使用していますか? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591(またはもっと最近のこと?)答えとしてもう少し詳細にそのアイデアを書きたい場合は、賞金を差し上げます。
Dan Hicks 2017

回答:


2

私には詳細な答えはありませんが、私が読んでいることを意味してきた作業へのいくつかのポインタだけです:

あなたは見てとることができMcConville(2011) LASSOの使用があなたのデータに適したことを確認するために、複雑な-調査LASSO上を。しかし、変数の選択のみのためにLASSOを実行していて、残りの変数に他の何かを当てはめる場合、それは大した問題ではないかもしれません。

複雑な調査データとの相互検証(LASSOではありません)について、McConvilleはOpsomer&Miller(2005)とYou(2009)も引用しています。しかし、彼らの方法は、Kフォールドではなく、リーブワンアウトCVを使用しているようです。

複雑な調査では、Leave-one-outを実装する方が簡単です。データを適切に分割する方法についてはそれほど心配する必要はありません。(一方で、実行にK倍よりも時間がかかる可能性があります。また、モデルの選択が目標である場合、大きなサンプルの場合、Leave-one-outはK倍よりも悪い場合があることがわかっています。)


0

OPによる編集:複雑な調査データには適用されません。

cv.glmet関数は、必要な相互検証を実行するのに役立ちます。lambda.min値は、CVエラーが最小になるλの値です。lambda.1seは、最良のモデル(lambda.min)よりも単純であるが、最良のモデルの1標準誤差以内の誤差を持つ検索でのλの値を表します。

  1. アルファとラムダの両方から選択できる値のグリッドを選択してください

グリッド<-expand.grid(.alpha =(1:10)* 0.1、λ=(1:10)* 0.1)

  1. モデルの制御パラメーターを設定します。以下のトレイン制御は、10回の反復でrepeatcvを実行します。利用可能な方法を検討し、現在のシナリオに適合する方法を選択してください。

cv.glmmod <-cv.glmnet(xTrain、y = yTrain、alpha = grid .alpha .lambda).alpha,>=T,lambda=grid

以下に示すように、lambda.min値はモデル自体からアクセスできます。

cv.glmmod $ lambda.min


1
glmnetを使用してiidデータの相互検証を行う方法を知っています。相関のある複雑な調査データについて尋ねていました。
aenima 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.