クラスター化されたデータの適切なブートストラップ手法?


16

強力なクラスタリングが存在するデータで使用する適切なブートストラップ手法に関する質問があります。

私は、最新の請求データに基づいて現在のベースラインモデルをスコアリングすることにより、保険請求データの多変量混合効果予測モデルを評価するタスクを担当しました95パーセンタイル)。モデルの有効性を評価するために、感度、特異性、および正の予測値(PPV)が使用されます。

ブートストラップは、感度、特異性、PPVの割合の信頼区間を構築する正しい方法のようです。残念なことに、素朴なブートストラップは、請求データが1)ケア提供者によって相関付けられていること、2)ケアのエピソードの数か月前に頻繁に訪問するケアのエピソードにグループ化されているため、適切ではありません(そのため、自己相関が存在します)。ムービングブロックブートストラップテクニックのバリエーションはここで適切でしょうか?

または、3段階のブートストラップ手順が機能する可能性があります:1)データ内の個別のプロバイダーからの置換のサンプル、2)選択したプロバイダーによる個別のケアエピソードの置換のサンプル、3)各内の個別のクレームからの置換のサンプル選択したエピソード。

ご提案ありがとうございます!

回答:


14

提案する2番目のアプローチは理にかなっているように見えますが、階層データをブートストラップするときは、最高レベルで置換のみを行い、残りのサブレベルでは置換を行わないでサンプリングする方が良いことがわかります。これはRen et al(2010)によるシミュレーションから示されています:http : //www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field&Welsh(2007)は、2レベルデータセットのさまざまなアプローチを理論的に調査し、両方のレベルでの置換によるサンプリングは素晴らしいアイデアではないことを発見しました。
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

あなたが言及する自己相関は深刻な問題です。一方、ケアのエピソードから置換なしで選択すると、自己相関構造が保持されるため、それほど大きな問題ではない可能性があります。


次の解決策が適切かどうか疑問に思っています
ラファエル

...すみません、以前のコメントを終えることができませんでした。ここにあります:...各クラスタリングレベルを考慮したコード(id)を作成します(episoid1.claim1、episoid1.claim1、...、epsioid2.claim1、episoid2.claim2、...、episoidn.claimpなど) 、そしてGEEを使用して、自己相関に対処できます。GEEモデルは、Clostyer構造が存在する場合でもロバストな推定を提供することをどこかで読みました。この解決策は合理的に聞こえますか?
ラファエル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.