タグ付けされた質問 「survey」

母集団からサンプルを収集するために使用される機器を指します。調査はしばしば人間の母集団のサンプリングを指し、主に質問表の作成または個人へのインタビューによって行われます。層別母集団での調査のために個人をサンプリングする場合、母集団パラメータのより正確な推定値を取得するには、単純なランダムよりも複雑なサンプリングが必要になる場合があります。調査データのサンプリング設計と分析は、「調査方法論」に分類されます。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
svyglm vs glmでの重みの使用
重みの治療の間どのように異なるかを私は知っていただきたいと思いますsvyglmし、glm twangR のパッケージを使用して、次のように重みとして使用される傾向スコアを作成しています(このコードはtwangドキュメントから取得しています)。 library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error …
18 r  survey 

2
現在の菜食主義者に関する調査データしかない場合、菜食主義の平均遵守期間を計算する方法は?
ランダムな人口サンプルが調査されました。彼らは菜食を食べるか尋ねられました。「はい」と答えた場合、菜食主義者の食事を中断することなくどのくらいの期間食べているかを指定するように求められました。このデータを使用して、菜食主義の平均遵守期間を計算します。言い換えれば、誰かが菜食主義者になったとき、私は平均して彼らが菜食主義者のままでいることを長く知りたいと思います。それを仮定しましょう: すべての回答者が正確かつ正確に回答した 世界は安定しています:菜食主義の人気は変わらず、アドヒアランスの平均期間も変わりません。 これまでの私の推論 毎年の初めに2人がベジタリアンになる世界のおもちゃモデルを分析すると役立つことがわかりました。毎回、1人は1年間ベジタリアンを続け、もう1人は3年間滞在します。明らかに、この世界のアドヒアランスの平均期間は(1 + 3)/ 2 = 2年です。以下に例を示します。各長方形は、菜食主義の期間を表します。 4年目の半ばに調査を行ったとしましょう(赤線)。次のデータを取得します。 調査を3年目以降の任意の年に受けた場合、同じデータが得られます。得られた回答の平均をとると、次のようになります。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 誰もが調査直後に菜食主義者でなくなったと仮定しているため、過小評価していますが、これは明らかに間違っています。これらの参加者がベジタリアンのままでいる実際の平均時間に近い推定値を取得するために、平均して、菜食主義の期間の約半分の時間を報告し、報告された期間に2を掛けると仮定できます。 (私が分析しているような)人口から、これは現実的な仮定だと思います。少なくとも、正しい期待値が得られます。ただし、2倍にすることが唯一の場合、平均2.5になりますが、これは過大評価です。これは、菜食主義者が長くいるほど、現在の菜食主義者のサンプルに含まれる可能性が高くなるためです。 誰かが現在の菜食主義者のサンプルに含まれている確率は、菜食主義の長さに比例すると思いました。この偏りを説明するために、私は現在のベジタリアンの数を彼らの予測されたアドヒアランスの長さで割ろうとしました: ただし、これにより不正確な平均も得られます。 (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 菜食主義者の数を正しいアドヒアランスの長さで割った場合、正しい推定値が得られます。 (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 しかし、アドヒアランスの予測された長さを使用し、それが実際に私が持っているすべてである場合、それは機能しません。他に何を試すべきかわかりません。私はサバイバル分析について少し読みましたが、この場合にどのようにそれを適用するのかわかりません。理想的には、90%の信頼区間も計算できるようにしたいと思います。どんなヒントでも大歓迎です。 …

8
非論理的な調査回答の処理方法
アーティストのサンプルにアンケートを提出しました。質問の1つは、芸術活動、政府支援、私的年金、芸術に関連しない活動によって得られる収入の割合を示すことでした。個人の約65%が、合計が100になるように回答しています。他の人はそうではありません。たとえば、収入の70%が芸術活動から得られ、60%が収入政府から得られると答える人がいます。 、 等々。私の質問は、これらの観察結果をどのように扱うべきですか?それらを削除、変更、または保持する必要がありますか?ありがとうございました!
13 survey  bias 

8
調査:大規模なユーザーベースの25%が代表者ですか?
私の雇用主は現在、オフィス、つまりセンチメントに対する態度について全社的な調査を実施しています。過去に、彼らは事業のすべての分野(10の非常に異なる部門を想定)とその中のすべての従業員(会社全体で合計1000人の従業員を想定)に調査を開きました。各部門の従業員数は等しくなく、特定の部門は、おそらく組織の総人口の50%です。 今年、調査は全従業員ベースの25%にのみ開かれており、選択は「ランダム」です。 したがって、2つのクエリがあります。 従業員ベース全体の真にランダムな選択である場合、それらすべての従業員が応答すると仮定した統計的に有効なサンプルはどのようになりますか? 部門ごとのレベルでランダムな場合、たとえば各部門の25%の場合、1つの部門を考慮した有効なサンプルが総人口の50%を超えていることはどうですか。 会社の過半数の感情を判断するには、真の読書感情を提供するために、各部門の従業員ベースの少なくとも50%が必要だと思います。 更新:調査は実施されません。選択した25%からの応答率が100%であるという保証はありません。調査が記入されているかされていない場合、インセンティブまたは懲罰的な手段はありません。

5
サンプルが国勢調査よりも正確であるとしばしば主張されているのはなぜですか?
サンプリングのコースを学習するとき、次の2つのステートメントを満たします。 1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。 2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。 これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?

2
アンケートからの無駄な質問の特定
アンケートを作成しています。その信頼性と妥当性を改善するために、統計的手法を使用したいと思います。 答えが常に同じである質問を排除したい。これは、ほぼすべての参加者がこれらの質問に対して同じ回答をしたことを意味します。 今、私の質問は: 使用の文脈とは無関係に、答えが常に同じであるような役に立たない質問の専門用語は何ですか? そのような質問を識別する方法は何ですか?

3
アンケートの検証
論文のアンケートを作成しています。私は、クロンバッハのアルファテストを最初のサンプルグループに適用したアンケートを検証しています。アンケートへの回答はリッカートスケールです。誰でも、その妥当性をテストするために適用するテストを提案できますか 私は統計の専門家ではありませんので、どんな助けでも感謝します。 私はいくつかの研究を行ってきましたが、このテストとアドバイスを適用するためのフリーソフトウェアサイトを持っている人がいるなら、ラッシュ分析を行うことができますか?

2
LASSO後の複雑な調査データの相互検証
LASSOを使用して、いくつかの候補予測子でモデル選択を行い、継続的な結果を得ようとしています。目標は、最高の予測パフォーマンスを備えた最適なモデルを選択することです。これは、通常、LASSOからチューニングパラメーターのソリューションパスを取得した後、K分割交差検証によって実行できます。ここでの問題は、データがクラスターのサンプリングと層別化を伴う複雑な多段階調査計画(NHANES)からのものであることです。glmnetRではサンプリングの重みを取得できるため、推定部分は難しくありません。しかし、観測値はもはやiidではないので、相互検証部分はあまり明確ではありません。また、プロシージャは、有限母集団を表すサンプリングの重みをどのように説明できますか? だから私の質問は: 1)最適な調整パラメーターを選択するために、複雑な調査データでK分割交差検証を実行するにはどうすればよいですか?具体的には、サンプルデータをトレーニングと検証のセットに適切に分割する方法を教えてください。そして、予測誤差の推定値をどのように定義しますか? 2)最適な調整パラメーターを選択する別の方法はありますか?

2
カテゴリーの影響とロジスティック回帰におけるそれらの有病率を視覚化する最良の方法は何ですか?
世論調査データを使用して、候補者の投票の主要な予測因子に関する情報を提示する必要があります。気になるすべての変数を使用してロジスティック回帰を実行しましたが、この情報を提示するための良い方法が見つかりません。 私のクライアントは、効果のサイズだけを気にするのではなく、効果のサイズとそのような属性を持つ母集団のサイズとの間の相互作用について気にします。 グラフでそれをどのように処理できますか?助言がありますか? 次に例を示します。 従属変数が候補に投票/否定である場合の変数SEX(男性= 1)のは2.3です。これは、指数化され、オッズ比または確率として扱われた後の大きな数です。ただし、この調査が実施された社会では30%の男性しかいませんでした。したがって、男性はこの候補者をかなり支持しましたが、それらの数は、多数派選挙に勝とうとする候補者にとって重要ではありません。ββ\beta


6
人口の代表的なサンプルを入手できるように、調査を投稿するサイトはありますか?
これは私の高校のプロジェクトのためだけなので、完璧である必要はありません。私は地球温暖化に関するプロジェクトをやっており、人々の意見を調査したいと思います。クラスメートの便利なサンプルを使用すると、バイアスが大きくなることを知っています。SRSにできるだけ近づくことができるように、無作為の人々が答えるために私の調査を投稿できるサイトがインターネットにあるかどうか疑問に思っていました。そうでない場合、私の調査を実施する方法について他のいくつかの提案に興味があります。
11 survey  internet 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.