統計とビッグデータ survey-weights

1

私は一見簡単な問題に見舞われていますが、数週間は適切な解決策が見つかりませんでした。私は、重み、層別化、特定のルーティングなどを備えた複雑に設計された調査と呼ばれるものから来る、非常に多くの世論調査/調査データ（数万の回答者、データセットごとに50kなど）を持っています各回答者には、人口統計（年齢、地域など）などの数百の変数があり、ほとんどがバイナリ（最大でカテゴリ）変数です。私はコンピュータサイエンス/機械学習のバックグラウンドから来ており、古典的な調査統計と方法論について多くを学ぶ必要がありました。次に、これらのデータに古典的な機械学習を適用します（たとえば、回答者のサブセットの欠損値の予測-基本的に分類タスク）。しかし、見つめて、私はそれを行う適切な方法を見つけることができません。これらのストラタ、重み、またはルーティングをどのように組み込む必要がありますか（例：質問1がオプション2で答えた場合、質問3を尋ね、そうでなければスキップします）？モデル（ツリー、ロジスティック回帰、SVM、XGBoost ...）を単純に適用することは、データが単純なランダムサンプルまたはiidからのものであると通常想定しているため、危険なようです（ほとんどの場合失敗します）。多くのメソッドには少なくとも重みがありますが、あまり役に立ちません。さらに、層別化については言及せず、調査の定義によって与えられた不均衡なクラスと重みをどのように組み合わせるべきかは不明です。さらに、結果モデルは適切に調整する必要があります-予測される分布は元の分布に非常に近いはずです。ここでは、予測の良好なパフォーマンスだけが基準ではありません。これも考慮に入れて最適化メトリックを変更し（真の分布からの予測分布の距離 +精度/ MCCなど）、いくつかのケースで、他のパフォーマンスを損なう理由に役立ちました。この問題に対処する標準的な方法はありますか？それは私にとって非常に過小評価されている研究分野のようです。IMOの多くの調査はMLの力の恩恵を受けることができますが、情報源はありません。これらのように、相互作用しない2つの世界があります。私がこれまでに見つけたもの： http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/ たとえば、データが複雑なサンプル調査から得られた場合に回帰ツリーを実行する方法に関する論文（Toth＆Eltinge、2011年）はまだ1つしかありません。 http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine 複雑なサンプリング設計による複数の調査を分析する150のサンプリングされた研究論文の最近のメタ分析では、複雑なサンプル設計機能の無知または誤った使用に起因する分析エラーが頻繁に見られました。 https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf 関連するCVの質問ですが、これに対処するための有用な答えが含まれていません（答えがない、私が求めているものではなく、誤解を招く推奨事項を提示しています）：複雑な調査データとの整合分析加重/複雑な調査データによる機械学習複雑な調査データでのLASSO後の相互検証複雑な調査におけるロジスティック回帰の分離？ Rでの複雑な調査データへのマルチレベルモデルの適合

14 machine-learning survey-weights survey-sampling

3

調査サンプルの重み付けに関する参照を推奨

入門レベルのいくつか、いくつかの記事、いくつかの教科書を目指しましょう。Rコードを含むと、Appliedの方が便利です。ありがとう！

9 sampling references survey-weights survey-sampling

1

傾向スコア分析で、非常に小さいまたは大きい傾向を処理するためのオプションは何ですか？

\newcommand{\P}{\mathbb{P}}治療の割り当てを非常によく説明できる観測データに関心があります。たとえば、のロジスティック回帰 P（A=1 | X）= （1 + exp（− （Xβ）））− 1P(A=1|X)=(1+exp⁡(−(Xβ)))−1\P(A =1 |X) = (1+ \exp(-(X\beta)))^{-1} wehre あAA治療割り当てとバツXX共変量は、非常に高いテストと非常に良好なフィット感があるA UC> .80AUC>.80AUC >.80、さらには> .90>.90>.90。これは傾向モデルの精度にとって朗報ですが、傾向スコアの推定につながりますπ^=（1 + exp（− （Xβ^）））− 1π^=(1+exp⁡(−(Xβ^)))−1\hat{\pi} = (1+ \exp(-(X \hat{\beta})))^{-1}閉じる000または111。これらは、結果の期待値の逆確率重み付け推定量などの推定量で使用される大きな逆確率重みπ^− 1π^−1\hat{\pi}^{-1}および（1- \ hat {\ pi}）^ {-1}につながりますY_1（観察中の観察）：（1 − π^）− 1(1−π^)−1(1-\hat{\pi})^{-1}Y1Y1Y_1 ん− 1Σ私π私^− 1あ私Y1 i。n−1∑iπi^−1AiY1i.n^{-1} \sum_i \hat{\pi_i}^{-1} A_i Y_{1i}. これにより、推定値の分散が非常に大きくなると思います。非常に差別的な傾向スコアモデルが極端な重みにつながるのは悪循環のようです。私の質問：この分析をより堅牢にするために利用可能なオプションは何ですか？傾向スコアモデルを適合させる代替手段はありますか、またはモデルが適合した後に大きな重みを処理する方法はありますか？

8 missing-data causality propensity-scores survey-weights

タグ付けされた質問 「survey-weights」

タグ付けされた質問「survey-weights」