私は一見簡単な問題に見舞われていますが、数週間は適切な解決策が見つかりませんでした。
私は、重み、層別化、特定のルーティングなどを備えた複雑に設計された調査と呼ばれるものから来る、非常に多くの世論調査/調査データ(数万の回答者、データセットごとに50kなど)を持っています 各回答者には、人口統計(年齢、地域など)などの数百の変数があり、ほとんどがバイナリ(最大でカテゴリ)変数です。
私はコンピュータサイエンス/機械学習のバックグラウンドから来ており、古典的な調査統計と方法論について多くを学ぶ必要がありました。次に、これらのデータに古典的な機械学習を適用します(たとえば、回答者のサブセットの欠損値の予測-基本的に分類タスク)。しかし、見つめて、私はそれを行う適切な方法を見つけることができません。これらのストラタ、重み、またはルーティングをどのように組み込む必要がありますか(例:質問1がオプション2で答えた場合、質問3を尋ね、そうでなければスキップします)?
モデル(ツリー、ロジスティック回帰、SVM、XGBoost ...)を単純に適用することは、データが単純なランダムサンプルまたはiidからのものであると通常想定しているため、危険なようです(ほとんどの場合失敗します)。
多くのメソッドには少なくとも重みがありますが、あまり役に立ちません。さらに、層別化については言及せず、調査の定義によって与えられた不均衡なクラスと重みをどのように組み合わせるべきかは不明です。さらに、結果モデルは適切に調整する必要があります-予測される分布は元の分布に非常に近いはずです。ここでは、予測の良好なパフォーマンスだけが基準ではありません。これも考慮に入れて最適化メトリックを変更し(真の分布からの予測分布の距離 +精度/ MCCなど)、いくつかのケースで、他のパフォーマンスを損なう理由に役立ちました。
この問題に対処する標準的な方法はありますか?それは私にとって非常に過小評価されている研究分野のようです。IMOの多くの調査はMLの力の恩恵を受けることができますが、情報源はありません。これらのように、相互作用しない2つの世界があります。
私がこれまでに見つけたもの:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
たとえば、データが複雑なサンプル調査から得られた場合に回帰ツリーを実行する方法に関する論文(Toth&Eltinge、2011年)はまだ1つしかありません。
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
複雑なサンプリング設計による複数の調査を分析する150のサンプリングされた研究論文の最近のメタ分析では、複雑なサンプル設計機能の無知または誤った使用に起因する分析エラーが頻繁に見られました。
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
関連するCVの質問ですが、これに対処するための有用な答えが含まれていません(答えがない、私が求めているものではなく、誤解を招く推奨事項を提示しています):