タグ付けされた質問 「survey-sampling」

1
2つの世界が衝突:複雑な調査データにMLを使用
私は一見簡単な問題に見舞われていますが、数週間は適切な解決策が見つかりませんでした。 私は、重み、層別化、特定のルーティングなどを備えた複雑に設計された調査と呼ばれるものから来る、非常に多くの世論調査/調査データ(数万の回答者、データセットごとに50kなど)を持っています 各回答者には、人口統計(年齢、地域など)などの数百の変数があり、ほとんどがバイナリ(最大でカテゴリ)変数です。 私はコンピュータサイエンス/機械学習のバックグラウンドから来ており、古典的な調査統計と方法論について多くを学ぶ必要がありました。次に、これらのデータに古典的な機械学習を適用します(たとえば、回答者のサブ​​セットの欠損値の予測-基本的に分類タスク)。しかし、見つめて、私はそれを行う適切な方法を見つけることができません。これらのストラタ、重み、またはルーティングをどのように組み込む必要がありますか(例:質問1がオプション2で答えた場合、質問3を尋ね、そうでなければスキップします)? モデル(ツリー、ロジスティック回帰、SVM、XGBoost ...)を単純に適用することは、データが単純なランダムサンプルまたはiidからのものであると通常想定しているため、危険なようです(ほとんどの場合失敗します)。 多くのメソッドには少なくとも重みがありますが、あまり役に立ちません。さらに、層別化については言及せず、調査の定義によって与えられた不均衡なクラスと重みをどのように組み合わせるべきかは不明です。さらに、結果モデルは適切に調整する必要があります-予測される分布は元の分布に非常に近いはずです。ここでは、予測の良好なパフォーマンスだけが基準ではありません。これも考慮に入れて最適化メトリックを変更し(真の分布からの予測分布の距離 +精度/ MCCなど)、いくつかのケースで、他のパフォーマンスを損なう理由に役立ちました。 この問題に対処する標準的な方法はありますか?それは私にとって非常に過小評価されている研究分野のようです。IMOの多くの調査はMLの力の恩恵を受けることができますが、情報源はありません。これらのように、相互作用しない2つの世界があります。 私がこれまでに見つけたもの: http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/ たとえば、データが複雑なサンプル調査から得られた場合に回帰ツリーを実行する方法に関する論文(Toth&Eltinge、2011年)はまだ1つしかありません。 http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine 複雑なサンプリング設計による複数の調査を分析する150のサンプリングされた研究論文の最近のメタ分析では、複雑なサンプル設計機能の無知または誤った使用に起因する分析エラーが頻繁に見られました。 https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf 関連するCVの質問ですが、これに対処するための有用な答えが含まれていません(答えがない、私が求めているものではなく、誤解を招く推奨事項を提示しています): 複雑な調査データとの整合分析 加重/複雑な調査データによる機械学習 複雑な調査データでのLASSO後の相互検証 複雑な調査におけるロジスティック回帰の分離? Rでの複雑な調査データへのマルチレベルモデルの適合

8
調査:大規模なユーザーベースの25%が代表者ですか?
私の雇用主は現在、オフィス、つまりセンチメントに対する態度について全社的な調査を実施しています。過去に、彼らは事業のすべての分野(10の非常に異なる部門を想定)とその中のすべての従業員(会社全体で合計1000人の従業員を想定)に調査を開きました。各部門の従業員数は等しくなく、特定の部門は、おそらく組織の総人口の50%です。 今年、調査は全従業員ベースの25%にのみ開かれており、選択は「ランダム」です。 したがって、2つのクエリがあります。 従業員ベース全体の真にランダムな選択である場合、それらすべての従業員が応答すると仮定した統計的に有効なサンプルはどのようになりますか? 部門ごとのレベルでランダムな場合、たとえば各部門の25%の場合、1つの部門を考慮した有効なサンプルが総人口の50%を超えていることはどうですか。 会社の過半数の感情を判断するには、真の読書感情を提供するために、各部門の従業員ベースの少なくとも50%が必要だと思います。 更新:調査は実施されません。選択した25%からの応答率が100%であるという保証はありません。調査が記入されているかされていない場合、インセンティブまたは懲罰的な手段はありません。


3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.