タグ付けされた質問 「cluster-sample」

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
Rの複雑な調査データへのマルチレベルモデルの近似
Rのマルチレベルモデルで複雑な調査データを分析する方法に関するアドバイスを探していsurveyます。1レベルモデルでの選択の等しくない確率を重み付けするためにパッケージを使用しましたが、このパッケージにはマルチレベルモデリングの機能がありません。このlme4パッケージはマルチレベルモデリングに最適ですが、クラスタリングのさまざまなレベルで重みを含める方法を知る方法はありません。Asparouhov(2006)は問題を設定します: マルチレベルモデルは、クラスターサンプリング設計からのデータを分析するために頻繁に使用されます。ただし、このようなサンプリング設計では、クラスターレベルと個々のレベルで選択の確率が等しくないことがよくあります。サンプリングの重みは、これらの確率を反映するために、1つまたは両方のレベルで割り当てられます。いずれかのレベルでサンプリングの重みが無視された場合、パラメーター推定値は大幅にバイアスされる可能性があります。 2レベルモデルの1つのアプローチは、MPLUSに実装されているマルチレベルの疑似最尤(MPML)推定器です(Asparouhov et al、?)。Carle(2009)は主要なソフトウェアパッケージをレビューし、続行方法についていくつかの推奨事項を作成します。 複雑な調査データと設計の重みでMLMを適切に実施するには、アナリストは、プログラムの外部でスケーリングされた重みを含み、自動プログラム変更なしで「新しい」スケーリングされた重みを含むことができるソフトウェアが必要です。現在、3つの主要なMLMソフトウェアプログラムがこれを可能にしています:Mplus(5.2)、MLwiN(2.02)、およびGLLAMM。残念ながら、HLMもSASもこれを行うことはできません。 WestとGalecki(2013)はさらに最新のレビューを提供しています。関連する一節を詳しく引用します。 時折、アナリストは、複雑なデザインのサンプルから収集されたデータセットを調査するためにLMMを適合させたいと望んでいます(Heeringa et al、2010、Chapter 12を参照)。複雑なサンプル設計は、一般に、人口を層に分割すること、層内から個人のクラスターを多段階で選択すること、およびクラスターとサンプリングされた最終的な個人の両方の選択確率が等しくないことを特徴とします。これらの等しくない選択確率は、一般的に個人のサンプリング重みの構築につながり、分析に組み込まれたときに記述パラメータの公平な推定を保証します。これらの重みは、調査の非応答用にさらに調整され、既知の母集団の合計に合わせて調整される場合があります。伝統的に、アナリストは、回帰モデルを推定するときに、これらの複雑なサンプリング機能を組み込むための設計ベースのアプローチを検討する場合があります(Heeringa et al。、2010)。最近では、統計学者がこれらのデータを分析するためのモデルベースのアプローチを模索し始めており、LMMを使用してサンプリング層の固定効果とサンプリングされたクラスターのランダム効果を組み込んでいます。 これらのデータを分析するためのモデルベースのアプローチの開発における主な困難は、サンプリングの重みを組み込むための適切な方法を選択することでした(問題の概要については、Gelman、2007を参照してください)。Pfeffermann et al。(1998)、Asparouhov and Muthen(2006)、およびRabe-Hesketh and Skrondal(2006)は、調査の重みを組み込んだ方法でマルチレベルモデルを推定する理論を開発しました。Rabe-HeskethおよびSkrondal(2006)、Carle(2009)そしてHeeringa等。(2010年、第12章)は、現在のソフトウェア手順を使用したアプリケーションを提示していますが、これは引き続き統計研究の活発な分野です。LMMをフィッティングできるソフトウェア手順は、これまでに複雑な設計機能を組み込むために文献で提案されてきたアプローチを実装するさまざまな段階にあります。分析者は、LMMを複雑なサンプル調査データにフィッティングするときにこれを考慮する必要があります。複雑なサンプル調査から収集されたデータにLMMをフィッティングすることに関心のあるアナリストは、調査の重みを推定手順(HLM、MLwiN、Mplus、xtmixed、およびgllamm)に正しく組み込むことができる手順に惹かれます。範囲。 これは私に私の質問をもたらします:Rの複雑な調査データにLMMをフィッティングするためのベストプラクティスの推奨事項はありますか?

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.