タグ付けされた質問 「survey」

母集団からサンプルを収集するために使用される機器を指します。調査はしばしば人間の母集団のサンプリングを指し、主に質問表の作成または個人へのインタビューによって行われます。層別母集団での調査のために個人をサンプリングする場合、母集団パラメータのより正確な推定値を取得するには、単純なランダムよりも複雑なサンプリングが必要になる場合があります。調査データのサンプリング設計と分析は、「調査方法論」に分類されます。

1
SurveyMonkeyは、ランダムでないサンプルを取得するという事実を無視しますか?
SurveyMonkeyには、母集団のサイズに基づいて、特定の誤差範囲または信頼区間に必要なサンプルサイズを把握するための手順とチャートがあります。 SurveyMonkeyのサンプルサイズ このチャートは、ランダムなサンプルが得られないという事実を単に無視しているのでしょうか?調査に反応することに煩わされている人々しか得られないからです。 これを入力すると、質問が主観的であると警告されるので、正しく質問していない可能性があります。それは実際にはSurveyMonkeyについてではありませんが、より一般的な質問です-私が知らないいくつかの高度な手法を使用して、自発的応答データから信頼区間を実際に計算できますか? 出口調査や全国調査では、明らかにこの問題に対処しなければなりません。私の教育では調査サンプリング技術を詳細に取り上げていませんが、人口統計データを収集し、それを使用してサンプルの代表性を知ることを含むと思います。 しかし、それを除けば、簡単なオンライン調査では、回答に迷惑をかけている人々が人口のランダムなサンプルであると彼らは単に想定しているのでしょうか?

1
人々が興味を持っている分野の調査から得られたこのPCAバイプロットをどのように解釈するのですか?
背景:調査の何百人もの参加者に、選択した領域にどれだけ関心があるかを尋ねました(5ポイントのリッカートスケールで、1は「関心がない」、5は「関心がある」を示しています)。 その後、PCAを試しました。以下の図は、最初の2つの主成分への投影です。色は性別に使用され、PCA矢印は元の変数(つまり、関心)です。 きがついた: ドット(回答者)は、2番目のコンポーネントによって非常によく分離されています。 左向きの矢印はありません。 一部の矢印は他の矢印よりもはるかに短いです。 変数はクラスターを作る傾向がありますが、観測はしません。 下向きの矢印は主に男性の興味であり、上向きの矢印は主に女性の興味であるようです。 一部の矢印は下向きでも上向きでもありません。 質問:ドット(回答者)、色(性別)、矢印(変数)の関係を正しく解釈するにはどうすればよいですか?このプロットから、回答者とその関心について、他にどのような結論を導き出すことができますか? データはここにあります。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
傾向スコアの重み付けによる平均治療効果の信頼区間?
傾向スコアの重み付け(具体的にはIPTW)を使用して、観測データから平均治療効果を推定しようとしています。私はATEを正しく計算していると思いますが、逆の傾向スコアの重みを考慮しながら、ATEの信頼区間を計算する方法がわかりません。 以下は、平均治療効果を計算するために使用する方程式です(参照Stat Med。Sep 10、2010; 29(20):2137–2148。): ここで、被験者の総数、治療状態、結果状態、および傾向スコア。ATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}N=N=N=Zi=Zi=Z_i=Yi=Yi=Y_i=pi=pi=p_i= 重みを考慮して、平均治療効果の信頼区間を計算するRパッケージを知っている人はいますか?でしたsurveyここでパッケージのヘルプ?これがうまくいくかどうか疑問に思っていました: library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 比率間の差の信頼区間(平均治療効果など)を見つけるために、ここからどこへ行くべきかわかりません。

1
個人的な問題に関する調査方法
私の統計学者の友人は、デリケートな問題を扱った調査で正直な回答を得るために使用された興味深いテクニックについて私に話しました。私はメソッドの一般的な要点を思い出しましたが、誰かが詳細を知っていて、どこかで参照されているのではないかと思っています。 その話は、フロリダAMAが医師の間の薬物使用を評価したかったということでした。彼らは1つのダイでアンケートを送りました。IIRC、指示は「サイコロを振る。薬物を服用したか6を獲得したことがある場合は6を書き留め、それ以外の場合は何が出てきた場合も書き留める」のようなものでした。誰かが医者の質問票を引いて6を見て、薬物を服用していないと言っても、たまたま6を出してしまったのではないかという考えです。

1
EFAは明らかに1要素をサポートし、測定値は内部的に一貫していますが、CFAは適合性が低いですか?
私は、10項目の自己報告メジャーの心理測定特性を調査しています。2つの独立したサンプルで約400のケースがあります。アイテムは4ポイントリッカートスケールで完成します。EFAは明らかに1要素の解(たとえば、最初の固有値が6を超え、他はすべて1未満)をサポートし、クロンバッハのアルファは優れています(たとえば、.90)。アイテムと合計の相関が低いアイテムはありません。 私はもともとCFAを実行したいと思っていました(EFAはCFAが良くないことを確認した後の単なるフォローアップでした)単要素モデルをテストしました。驚いたことに、モデルへの適合は比較的不十分でした。 CFI=.91 TLI=.88 RMSEA=.13 さらに、各アイテムのロードは非常に良好です(0.65以上)。 奇妙なことにSRMR=.05、これは許容可能/良好です。 修正インデックスは、私がいたるところにエラーを関連付けることを示唆しています。そうすることの明確な合理性があった場合(たとえば、いくつかの項目は非常に類似した文言を持っている)、私はこれを行うでしょう。ただし、すべての測定値は同じように表現されており、すべての誤差項を関連付けることは奇妙で苦痛でしょう。 このようなケースを見たことがありません。指標は内部的に一貫しており、明らかにEFAの1つの要素で構成されていますが、CFAでの適合性は不十分です。結果は両方の独立したサンプル(異なる大陸から)で一致しています。私は2因子CFA(5つのランダムな項目をグループ化)を試してみましたが、適合は同じか、わずかに優れていました。 ここに私の質問があります: EFA / Cronbachアルファ/因子の負荷を考えると、CFI / TLI / RMSEAによる適合はなぜそれほど悪いのですか? なぜSRMRは良いのに他のインデックスはそうでないのですか?私はそれらが異なるものを測定することを知っていますが、私の経験では、ほとんど常に収束します。 エラーのいくつかを関連付ける必要がありますか? アイテムの例: あなたは自分の欠点について考えています あなたは忘れることが難しい考えを持っています あなたはいつも状況を考えています

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
新しい集団におけるアンケートの検証
医学生の態度構成を測定することを目的とする20項目のアンケートに400の回答があります。機器は米国で医学生の1年間検証され、公開されたデータは非常に「クリーン」です。すべてのritc値> 0.3、アルファ0.84、安定した4因子構造のPCAなど。私のサンプルでは、 ritc <0.2を持つ20のアイテムと文化的サブポピュレーション(n = 70)では、これらのritc値はゼロ/負です。すべてのitmesを保持している場合、ritcが低いものは、どの要素にもロードされないか、2項目の要素(要素4)に分類されません。これは(調査したいと思います)これは次のいずれかが原因であると仮定します。または(ii)プログラムのすべての段階で生徒からの回答があり、スケールアイテムで十分にキャプチャされていない構成に発達面があるため。これを調査できる統計検定はありますか? ritcのあるアイテムをスケールから削除する必要がありますか。削除する場合は、最低から順に削除します。どの時点でアイテムの削除を停止する必要がありますか/アンケートから何かを紛失しましたか?メジャーとマイナーのサブポピュレーションの間でスケールの因子構造を比較したい場合、これをどのように試行するか、またはマイナーサブサンプルが小さすぎて結論を導き出せないのですか?参考文献をいただければ幸いです。 最後に、スケールを検証する目的は、介入前および介入後のスコアを使用して介入の有効性を判断するためにスケールを使用することです。アイテムのritcが低い場合、実験的な設定でスケールの信頼性に影響を与える可能性があると思います。または私は間違っていますか?発達的側面を持つ構成要素を測定するために設計されたスケールの有用性を決定する統計的方法はありますか?つまり、学生が態度構成要素の「より多く」を開発するときにすべての項目が適切に機能しますか?

1
調査デザインカイスクエア
変数が異なるsvydesign()ステートメントの異なる調査からのものである場合に、2変数をカイ二乗検定で比較する方法を知っている人はいますか?調査の2つの波全体の変数分布の違いをテストしようとしていますが、svychisq()ステートメントは1つの設計オブジェクトに限定されています。 2つの変数を新しいにスタックし、集合的な重みをdata.frame使用して新しいsvydesignステートメントを作成してから、テストを実行することは正当ですか?
8 r  chi-squared  survey 

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
人々のグループにオブジェクトのセットをまとめてランク付けさせるにはどうすればよいですか?
私は全国の約180の学校を監督する組織で働いています。これらの学校から結果データを定期的に収集し、ランク付けしています。私は最高と最悪のかを決定するために国家のオフィス(約100人)の調査を行うように求めてきた認知学校の質のスタッフの非データベースの印象に基づいて、学校があります。 追加情報: すべてのスタッフがすべての学校に精通しているわけではありません。学校をランク付けするように求められたとき、「私はこの学校について何も知りません」がオプションである必要があります。 一部のスタッフは特定の学校のサブセットで作業しているため、これらのスタッフの知識はこれらの特定の学校に最適です。 私の最初のアプローチは、10かそこらの学校のセットをランダムに生成することで、各学校は6かそこらのセットにあります。次に、各スタッフに各セットをランク付けして、不明な学校を示します。次に、各学校のランキングをセット全体で平均し、それをグローバルランキングとして使用できます。 上記の方法は実行可能ですか?もっと良い方法はありますか?この方法が機能する場合、集計されたランキングを代表するために各学校に必要なデータポイントはいくつですか?

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
ランキングと評価スケールを一緒に分析する方法は?
一部の市場調査では、消費者は優先度に基づいて製品の機能をランク付けするよう求められています。例えば、 優先度に基づいてデバイスの以下の機能をランク付けします(1が最優先) Storage capacity 6 Portability 5 Touch interface 1 Keyboard 4 Long battery life 2 Entertainment on the go 3 重要度に基づいて機能を1〜5のスケールで評価します(1は非常に重要です) 1 2 3 4 5 Storage capacity 1 Portability 3 Touch interface 1 Keyboard 1 Long battery life 2 Entertainment on the go 4 次に、ランキングと評価に基づいて、重みを割り当て、最終的に消費者がラップトップまたはタブレットPCのどちらを好むかを調べます。 この例で、消費者がタッチを1、バッテリー寿命を2とランク付けしたとします。これらはタブレットの属性です。しかし、彼はキーボードとストレージ容量を最も重要であると評価しました。これはキーボードを備えたラップトップの機能です。 これらを組み合わせて、おそらくいくつかの重みを割り当ててスコアを出すにはどうすればよいですか?スコアが特定のレベルを上回っている場合、消費者はタブレットを好み、特定のレベルを下回っている場合、消費者はラップトップを好みます。

1
集約された調査データにおける加重相関の使用について
統合した2つの調査のデータを分析しています。 2005-06年および2007-08年の学校職員調査 2005-06年から2008-09年までの学生の調査 これらの両方のデータセットについて、3つの異なる学区からの観察(学生またはスタッフレベル)があり、それぞれがそれぞれの学区内の代表的なサンプルを毎年持っています。 分析のために、学生のデータを2つの2年間(2005年7月と2007年9月)に結合しました。次に、各データセットを「ドプライ」して、カットオフに従って質問に回答したスタッフまたは学生の割合を取得しました(たとえば、肯定的に答えた、「同意した」、または学生がアルコールを使用したとマークしたかどうかなど)。等。)。したがって、スタッフレベルと学生レベルのデータセットを一緒にマージすると、学校が分析の単位となり、2年間の期間に学校ごとに1つの観測しか得られません(学校に特定の期間のデータが欠落していなかった場合) )。 私の目標は、スタッフと学生の反応の関係を推定することです。これまでのところ、私の計画は、各学区のすべての変数(すべてパーセンテージを表す連続応答であるため)間のピアソン相関係数を取得することでした(これにより、このデータセット内の他の学区の一般化可能性の仮定が排除されるため)。 。これを行うには、とにかく2年間の地区データを平均して、学校ごとに1つの観測値のみを取得します。 質問: これは適切な分析計画ですか?私がより良い推論または力を提供できる他の方法を使用できますか? 私の計画が適切である場合、学校の登録に基づいて加重相関を取得する必要がありますか(相関係数に不釣り合いに寄与している大学校よりも小学校が多いため)。 私はこれについてデータ管理者に尋ねましたが、私のデータに重みを付ける必要性を決定する主な要因は、学校の規模が相関の程度に影響を与えるかどうか、そして私の解釈が学生レベルか学校レベルのどちらになるかであると述べました。私の解釈は学校レベルになると思います(たとえば、「この方法で答えるスタッフの割合がこの学校は、この方法で答える生徒のこの割合と相関しています...」)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.