タグ付けされた質問 「ranks」


4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
中央値が等しい場合、Mann–Whitney U検定が重要なのはなぜですか?
Mann-Whitneyランクテストの結果がわかりませんが、わかりません。2つの母集団の中央値は同じです(6.9)。各母集団の上位および下位の分位数は次のとおりです。 6.64および7.2 6.60および7.1 これらの母集団を比較する検定の結果のp値は0.007です。これらの母集団はどのように大きく異なるのでしょうか?中央値の広がりによるものですか?2を比較する箱ひげ図は、2番目のものが最初のものよりもはるかに多くの外れ値を持っていることを示しています。提案をありがとう。

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
序数データの表示-平均、中央値、平均ランク
正規分布されていない序数データが​​あるため、Mann-Whitney U検定を使用してノンパラメトリック検定を行うことにしました。7つのスコアについてグループ間の違いを調べています。これらのスコアは、各被験者について0、1、2、または3のいずれかです。データの表示方法を理解するのに苦労しています! 中央値(および中央値の IQR)を使用してデータを提示する場合、違いがどこにあるかはまったく明らかではありません。それは、ほとんどの場合、中央値が0または1にあるためです。テーブルは面白くないように見えます。 手段を使用してデータを提示することもできます。序数データで平均を使用できるが、スコア間の差異について同じタイプの仮定を行うことはできないとする科学論文がいくつかあります(たとえば、0と1の差異は1と1の差異と同じではありません) 2)。手段を使用することは少し物議を醸すでしょうが、私がそれらを使用するとき、表の数字は物語をよく伝えます。 3番目のオプションは、マンホイットニーの出力でSPSSが私に与える平均ランクを使用することです。平均ランクはグループ間で比較されているものなので、多分私はそれらを使用する必要がありますか?これに関して私が抱えている唯一の問題は、平均ランクが実際のデータに関して実際には何も意味しないことです(たとえば、平均ランクを使用すると、コントロールが1に近いのに、対象が3に近いことがわかりません。) そして最後のオプションは、スコアを2つのグループ(0と1は低、2と3は高)に分割した後、被験者とコントロールを比較するカイ2乗分析を実行することでした。しかし、私がこれを行ったとき、違いはそれほど明白ではありませんでした(おそらくいくつかの理由のため)。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
正規性の仮定にもかかわらず、ランクのピアソン相関が有効なのはなぜですか?
私は現在、ピアソン相関の仮定について読んでいます。次のt検定の重要な仮定は、両方の変数が正規分布に由来することです。そうでない場合は、Spearman rhoなどの代替手段の使用が推奨されます。スピアマン相関はピアソン相関のように計算され、XとY自体の代わりにXとYのランクを使用するだけですよね? 私の質問は、ピアソン相関への入力変数を正規分布する必要がある場合、入力変数がランクであるにもかかわらず、スピアマン相関の計算が有効なのはなぜですか?私のランクは確かに正規分布からのものではありません... これまでに出てきた唯一の説明は、ローの有意性はピアソン相関t検定のそれとは異なる方法で検定される可能性があることです(正規性を必要としない方法で)が、これまでのところ式は見つかりませんでした。ただし、いくつかの例を実行した場合、rhoおよびランクのピアソン相関のt検定のp値は常に一致し、最後の数桁を除いて保存します。私にとって、これは画期的に異なる手順のようには見えません。 あなたが持っているかもしれないどんな説明やアイデアもいただければ幸いです!


1
ウィルコクソンの代わりにランクとz変換?
Andrew Gelmanは彼のブログの最近の投稿で、ランクを使用し、ランクをZスコアに変換してから、ノンパラメトリックテストを実行する代わりに、パラメトリックテストとツールを使用することを提案しています。今まで聞いたことがありません。 Googleでの検索により、パッケージGenABELのこのR関数が示されました。これは、データベクトルのランク+ z変換を実行しているようですが、代わりに変換されたデータでパラメトリックテストを使用するアイデアを評価または議論する論文を見つけることができませんでした。ウィルコクソンテストの。 誰かがこの方法に関するいくつかの文献を私に指摘できますか?

2
ランクベースのテストを使用するとき、外れ値について心配する必要がありますか?
これが非常に基本的な質問である場合はお詫びします。 正規分布されていないデータがあり(たとえば、ゆがんだ、Shapiro-Wilk検定が重要である)、ランクベースの方法(たとえばWilcoxon Signed Rank test)に頼る場合、異常値を考慮する必要がありますか? たとえば、ボックスプロットを使用してデータをプロットし、少数のデータポイントが外れ値としてマークされていると想像してください。これらのポイントを変換する必要がありますか?またはそれらを削除しますか?多くの教科書が外れ値の扱いについて話しているように思えますが、それはそれらが平均や標準偏差などのパラメーターに大きな影響を与えるからです。ただし、ランクベースのテストを使用する場合、それらはすでにランクの次の値になるように「変換」されるため、テストに大きな影響を与えることはありません。これまでのところ、統計の本に明記されていないので、ここで質問したいと思いました。 ランクベースのテストを使用するとき、外れ値について心配する必要がありますか?
8 outliers  ranks 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.