タグ付けされた質問 「paired-comparisons」

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
クロスオーバー(ペア)実験のエラーバーを表示する方法
次のシナリオは、調査担当者(I)、校閲者/編集者(R、CRANとは無関係)、およびプロット作成者としての私(M)のトリオで最もよくある質問になりました。(R)は、各プロットがエラーバーを持たなければならないことだけを知っている典型的な医療大ボスレビューアであると仮定できます。そうでなければ、それは間違っています。統計レビューアが関与している場合、問題はそれほど重大ではありません。 シナリオ 典型的な薬理学的クロスオーバー研究では、2つの薬物AとBがグルコースレベルへの影響についてテストされます。各患者は、キャリーオーバーがないという仮定の下で、ランダムな順序で2回テストされます。主要エンドポイントはグルコース(BA)の違いであり、対応のあるt検定が適切であると想定しています。 (I)両方の場合の絶対グルコースレベルを示すプロットが必要です。彼は(R)のエラーバーに対する欲求を恐れ、棒グラフの標準エラーを求めます。ここで棒グラフ戦争を始めないでください。 (I):それは真実ではない。バーは重なり、p = 0.03?それは私が高校で学んだことではありません。 (M):ここにはペアのデザインがあります。要求されたエラーバーは完全に無関係です。重要なのは、プロットに示されていないペアの差のSE / CIです。選択肢があり、データが多すぎない場合は、次のプロットを選択します 追加1:これは、いくつかの応答で言及された平行座標プロットです (M):線はペアリングを示し、ほとんどの線が上昇します。勾配が重要なので正しい印象です(わかりました、これはカテゴリですが、それでもなお)。 (I):その写真は紛らわしいです。誰もそれを理解しておらず、エラーバーもありません(Rは潜んでいます)。 (M):差の関連する信頼区間を示す別のプロットを追加することもできます。ゼロラインからの距離は、効果の大きさの印象を与えます。 (I):誰もやらない (R):そして貴重な木を無駄にします (M):(良いドイツ人として):はい、木の上のポイントが取られます。ただし、複数の治療法と複数のコントラストがある場合は、これを使用します(公開することはありません)。 提案はありますか?プロットを作成する場合、Rコードは以下のとおりです。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
ドッジボールチームが選手の勝利の歴史に基づいて勝つ確率を予測するにはどうすればよいですか?
世界にドッジボール選手が80人いると想像してください。彼らはそれぞれ、他の79人のプレイヤーとランダムに何千ものドッジボールゲームをプレイしました。これはチームのない世界です(たとえば、すべてのプレイヤーは各ゲームでどちらかのチームでドラフトされる可能性があります)。各プレイヤーの以前の勝率を知っています(たとえば、1つはすべての以前のゲームの46%を獲得し、もう1つは彼の以前のゲームの56%を獲得しました)。試合が予定されていて、各チームで誰がプレーしているのかがわかります。以前の勝率も知っています。 チームの構成に基づいて各チームが勝つ確率を計算する最良の方法は何ですか? 比較的高度な計算(ロジスティック回帰など)が必要な場合は、詳細をいくつか教えてください。私はSPSSにかなり精通していますが、フォローアップの質問をする必要はありません。 さらに、アーカイブデータを使用してメソッドの精度をどのように調べることができますか?ほとんどのプレイヤーは40〜60%程度ホバリングしているので、はっきりとは分からないでしょうが、それでもです。 具体的には、チームAが勝つ確率はどのくらいですか? A-以前の勝率が52%、54%、56%、58%、60%の個人で構成B-以前の勝率が48%、55%、56%、58%、60%の個人で構成 (これは、説明のための単なるランダムな例です。2つの非常に良いチームです。) 編集:非常に単純なアルゴリズムから始めて、それがどのように機能するかを見る方法はありますか?各チームのパーセンテージを単純に合計し、パーセンテージが最も高いチームが勝つと予測することができます。もちろん、分類は正確ではありませんが、数千件以上のアーカイブされたゲームを偶然よりも予測できるかどうかを確認できました。

2
平均の違いと平均の違い
2つの独立したサンプルの平均を研究する場合、「2つの平均の差」を見ていると言われます。この手段我々は、人口1(から平均値を取る)、人口2から、そこから平均値を引く(ˉ Y 2)。だから、私たちの"二つの手段の違いは、"ある(ˉ Y 1 - ˉ Y 2)。y¯1y¯1\bar y_1y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 対のサンプル手段を検討するとき、我々は、我々は、「平均差」を見ていると言われ。これは、各ペア間の差を取り、次にそれらすべての差の平均を取ることによって計算されます。d¯d¯\bar d 私の質問は:Doが、我々は(同じことを得る - ˉ Y 2)その対ˉ D我々は2つのデータ列から、それらを計算して、初めてそれ二つの独立したサンプルと考えられ、2回目は、それがデータをペアと考えられている場合?2列のデータをいじってみましたが、値は同じようです。その場合、非定量的な理由で異なる名前が使用されていると言えますか?y¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d

1
小さなサンプルでのWilcoxon符号付きランクの相対効率
ウィルコクソンの符号付き順位検定の漸近相対効率は、t検定と比較すると少なくとも0.864であることを、公開された文献(およびここに掲載)で見ました。これは大きなサンプルにのみ当てはまると聞いたことがありますが、これについて言及していない本もあります(これについてはどうですか)。 とにかく、私の質問は、上記の段落が適用されなくなる前に物事がどれほど小さくなければならないのですか? 私の場合、4組のデータがあります。すべての仮定が当てはまる場合、0.1のアルファを使用し、適度に相関するデータがあれば、対応のあるt検定で2SDの効果サイズを検出する能力が少なくとも90%あることがわかります。ただし、サンプルサイズが小さく、仮定をチェックできないため、ウィルコクソンの符号付き順位検定を使用したいと思いますが、そうすると、検定の能力が小さすぎるのではないかと心配しています。ありがとう!

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.