タグ付けされた質問 「wilcoxon-mann-whitney」

ウィルコクソン順位和検定は、マンホイットニーU検定とも呼ばれ、2つのサンプルの一方が他方よりも大きいかどうかを評価するノンパラメトリックランク検定です。

7
t検定とノンパラメトリック検定のどちらを選択するか(例:小さいサンプルのウィルコクソン)
特定の仮説は、スチューデントのt検定(2サンプルの場合の不等分散のウェルチ補正を使用)、またはウィルコクソンのペアの符号付きランク検定、ウィルコクソン-マン-ホイットニーU検定などのノンパラメトリック検定を使用して検定できます。またはペアサインテスト。特にサンプルサイズが「小さい」場合、どのテストが最も適切であるかについて、原則的な決定を下すにはどうすればよいでしょうか。 入門教科書や講義ノートの多くは、正常にチェックされている「フローチャート」アプローチ与える( -のいずれかinadvisedly -によって、より広く正常試験によって、またはQQプロットまたは同様の)間で決定するのt検定またはノンパラメトリック検定。対応のない2標本t検定では、ウェルチの補正を適用するかどうかを決定するために、分散の均一性をさらにチェックする場合があります。このアプローチの1つの問題は、適用するテストの決定が観測データに依存する方法と、選択したテストのパフォーマンス(電力、タイプIエラー率)にどのように影響するかです。 もう1つの問題は、小さなデータセットで正規性を確認するのがいかに難しいかです。正式なテストでは消費電力が少ないため、違反は検出されない可能性がありますが、QQプロットでデータを目立たせるのは同様の問題です。たとえば、分布が混在しているが、その混合の1つのコンポーネントから観測値が得られなかった場合など、重大な違反であっても検出されない可能性があります。が大きい場合とは異なり、中央極限定理のセーフティネット、および検定統計量とt分布の漸近正規性に頼ることはできません。nnn これに対する原則的な応答の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、ノンパラメトリック法に固執します。別の方法は、理論的に(たとえば、変数はいくつかのランダム成分の合計でCLTが適用される)または経験的に(たとえば、が大きい以前の研究では変数が正常であることを示唆する)、そのような根拠が存在する場合にのみt検定を使用する根拠を考慮することです。しかし、これは通常、おおよその正規性を正当化するだけであり、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断するのは困難です。nnn t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。しかし、小さなサンプルでもいくつかの副次的な問題が発生します。 「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか?一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。また、SDが(さまざまな基準で)「合理的に」近いかどうかをチェックします。母集団の分散が等しいと考える正当な理由がない限り、小さなサンプルに対して常にウェルチ補正を使用する方が安全ですか? メソッドの選択をパワーとロバスト性のトレードオフと見なす場合、ノンパラメトリックメソッドの漸近効率に関する主張は役に立ちません。「ウィルコクソン検定は、データが実際に正常であればt検定の約95%の能力を持ち、データがそうでなければはるかに強力であるため、ウィルコクソンを使用するだけ」という経験則が時々耳にされますが、 95%が大きなのみ適用される場合、これは小さなサンプルに対する欠陥のある推論です。nnn 変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータにt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、が小さいと、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。nnn ノンパラメトリックの仮定をチェックするのはどうですか? 一部の情報源は、ウィルコクソン検定を適用する前に対称分布を検証することをお勧めします(確率的優位ではなく位置の検定として扱う)。そもそもノンパラメトリック検定を適用する理由が「安全第一」というマントラへの盲目的な従順である場合、小さなサンプルから歪度を評価することの難しさは、明らかに、対符号検定のより低い検出力につながります。 。 これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストを決定する際に実行する適切な(できれば引用可能な)手順はありますか? いくつかの優れた回答がありましたが、順列テストなど、ランクテストに代わる他の方法を検討した回答も歓迎します。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
対応のないt検定の代わりにウィルコクソンのランクサム検定を使用する場合
これは、フランク・ハレルがここに書いたことのフォローアップの質問です。 私の経験では、t分布が正確であるために必要なサンプルサイズは、多くの場合、手元のサンプルサイズよりも大きくなります。ウィルコクソンの符号付きランク検定は、あなたが言ったように非常に効率的であり、堅牢であるため、ほとんどの場合、t検定よりもそれを好む 私がそれを正しく理解している場合-一致しない2つのサンプルの位置を比較する場合、サンプルサイズが小さい場合、対応のないt検定よりもウィルコクソンのランクサム検定を使用することをお勧めします。 2つのグループのサンプルサイズが比較的大きい場合でも、対応のないt検定よりもウィルコクソンのランクサム検定を好む理論的な状況はありますか? この質問に対する私の動機は、単一サンプルのt検定で、歪んだ分布のそれほど小さくないサンプルにそれを使用すると、誤ったタイプIエラーが生じるという観察から生じています。 n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

1
t検定の死亡の報告は非常に誇張されていますか?
CVの昔からの古典を読んで、はっきりさせたいと思う声明に出くわしました。これが投稿であり、私の質問は最後の発言に言及しています。「私が伝えた知識はすべて時代遅れであることに注意する必要があります。おそらく、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいでしょう。」 サンプル平均の分布がt検定を実行するのに十分に正常であると仮定するのが妥当かどうかについての心配がないことは、明らかに大きな利点です。そして、コンピューターは、2つのデータベクトル間の差の長いリストを簡単にランク付けできることを確認します。 それで、t検定は本当に過去のものですか?順列テストはどうですか?通常、数行のコードを書くという意味で、あまりにもアドホックですか?

2
ウィルコクソンの順位和検定とウィルコクソンの符号付き順位検定の違い
Wilcoxon Rank-Sum Testと、ペアの観測値を使用したWilcoxon Signed-Rank Testの理論的な違いは何かと思っていました。Wilcoxon Rank-Sum Testは2つの異なるサンプルで異なる量の観測値を許可するのに対し、ペアのサンプルのSigned-Rankテストはそれを許可しませんが、どちらも同じようにテストするようです。Wilcoxon Rank-Sum Testを使用する必要がある場合と、ペアの観測値を使用してWilcoxon Signed-Rank Testを使用する必要がある場合、誰かがさらに背景/理論的な情報を提供できますか?

5
ノンパラメトリックテストは正確に何を達成し、結果をどうしますか?
私はこれが他の場所で尋ねられたかもしれないと感じていますが、実際に私が必要とする基本的な説明のタイプではありません。ノンパラメトリックは、比較するために平均ではなく中央値に依存していることを知っています...何か。また、標準偏差ではなく「自由度」(?)に依存していると思います。私が間違っている場合は修正してください。 私はかなり良い研究をしてきたので、コンセプト、その背後にある仕組み、テスト結果が本当に意味すること、および/またはテスト結果をどう処理するかを理解しようとして考えました。しかし、誰もその地域に進出することはないようです。 簡単にするために、Mann-WhitneyのU検定に固執しましょう。これは非常に人気があることに気づきました(また、「正方形のモデルを円の穴に入れる」ために誤用され、過度に使用されているようです)。他のテストについても自由に説明したい場合は、一度理解すれば、他のテストもさまざまなt検定などに類似した方法で理解できます。 データでノンパラメトリックテストを実行し、この結果を取得したとしましょう。 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 私は他の方法に精通していますが、ここで何が違うのですか?p値を.05より低くする必要がありますか?「マン・ホイットニー統計」とはどういう意味ですか?それに用途はありますか?ここでのこの情報は、私が持っている特定のデータソースを使用する必要があるかどうかを確認するだけですか? 私は回帰と基本の合理的な量の経験を持っていますが、この「特別な」ノンパラメトリックなものに非常に興味があります。 私が5年生だと想像して、あなたがそれを私に説明できるかどうか確かめてください。


1
2つのサンプルが同じ分布から抽出された場合のノンパラメトリック検定
サンプルまたは母集団の分布についての仮定を一切行うことなく、同じ母集団から2つのサンプルが抽出されるという仮説をテストしたいと思います。どうすればいいですか? ウィキペディアからの私の印象は、Mann Whitney Uテストが適切であるべきだということですが、実際には私にはうまくいかないようです。 具体的には、2つのサンプル(a、b)が大きく(n = 10000)、非正常(バイモーダル)の2つの母集団から抽出されたデータセットを作成しました。私はこれらのサンプルが同じ母集団からのものではないことを認識するテストを探しています。 ヒストグラムビュー: Rコード: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) サンプルが同じ母集団からのものであるという帰無仮説を却下しなかったマン・ホイットニー検定は驚くほど(?)です。 > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank sum …

2
2つのグループ間の違いをテストする方法は、データが正規分布していないことを意味しますか?
生物学的な詳細と実験をすべて削除し、目前の問題と統計的に行ったことを引用します。その権利があるかどうか、もしそうでない場合は、どうすればよいかを知りたい。データ(または私の説明)が十分に明確でない場合は、編集して説明を改善します。 サイズおよび 2つのグループ/観測、XおよびYがあるとします。これら2つの観測値の平均が等しいかどうかを知りたいです。私の最初の質問は:Nバツ= 215Nバツ=215N_x=215Ny= 40Ny=40N_y=40 仮定が満たされている場合、ここでパラメトリック2サンプルt検定を使用することは適切ですか?私の理解から、サイズが小さいときに通常適用されるので、これを尋ねますか? XとYの両方のヒストグラムをプロットしましたが、2標本t検定の仮定の1つである正規分布ではありませんでした。私の混乱は、それらを2つの母集団であると考え、それが正規分布を確認した理由です。しかし、その後、2つのサンプルのt検定を実行しようとしています... これは正しいですか? 中心極限定理から、サンプリング(母集団のサイズに応じて繰り返しの有無を問わず)を複数回実行し、毎回サンプルの平均を計算すると、ほぼ正規分布になることがわかります。また、このランダム変数の平均は、母平均の適切な推定値になります。そこで、XとYの両方でこれを1000回行うことにし、サンプルを取得し、各サンプルの平均にランダム変数を割り当てました。プロットは非常に正規分布していました。XとYの平均は4.2と15.8(母集団±0.15と同じ)で、分散は0.95と12.11でした。 これらは非常に異なるため(0.95と12.11)、分散が等しくないこれら2つの観測値(それぞれ1000データポイント)でt検定を実行しました。そして、帰無仮説は棄却されました。 これはまったく理にかなっていますか?これは正しい/意味のあるアプローチですか、2サンプルのz検定で十分ですか、それともまったく間違っていますか? また、念のため(元のXとYで)ノンパラメトリックウィルコクソン検定を実行しましたが、帰無仮説も同様に説得力をもって拒否されました。私の以前の方法がまったく間違っていた場合、統計的な検出力を除いて、ノンパラメトリック検定を行うのが良いと思いますか? どちらの場合も、平均は大きく異なりました。ただし、どちらかまたは両方のアプローチに問題があるか、まったく間違っているかどうかを知りたい場合はどうすればよいですか?

1
Kruskal-Wallisの後の事後検定:Dunnの検定またはBonferroniはMann-Whitneyの検定を修正しましたか?
非ガウス分布変数がいくつかあり、5つの異なるグループのこの変数の値に大きな違いがあるかどうかを確認する必要があります。 Kruskal-Wallis一元配置分散分析(重要な結果になった)を実行した後、どのグループが大幅に異なるかを確認する必要がありました。グループは一種のソートされているため(最初のグループの変数の値は、3番目のグループの変数の値よりも低いと想定される2番目のグループの変数の値よりも低いと想定されます。 on)私は4つのテストのみを実行しました: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 この分析は、2つの異なる方法で実行しました。私はダンの多重比較テストを使用することから始めましたが、重要なものは何もありませんでした。一方、Mann-Whitneyテストを使用し、Bonferroniを使用したテストの数(4)を修正すると、3つのテストが重要になります。 どういう意味ですか?どの結果を信頼すべきですか?

8
対応のないt検定の最小サンプルサイズ
t検定を有効にするために必要な最小サンプルサイズを決定する「ルール」はありますか? たとえば、2つの母集団の平均間で比較を実行する必要があります。一方の母集団には7つのデータポイントがあり、もう一方の母集団には2つのデータポイントしかありません。残念ながら、実験は非常に高価で時間がかかり、より多くのデータを取得することは現実的ではありません。 T検定を使用できますか?なぜですか?詳細を入力してください(母集団の分散と分布は不明です)。T検定を使用できない場合、ノンパラメトリック検定(Mann Whitney)を使用できますか?なぜですか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
中央値が等しい場合、Mann–Whitney U検定が重要なのはなぜですか?
Mann-Whitneyランクテストの結果がわかりませんが、わかりません。2つの母集団の中央値は同じです(6.9)。各母集団の上位および下位の分位数は次のとおりです。 6.64および7.2 6.60および7.1 これらの母集団を比較する検定の結果のp値は0.007です。これらの母集団はどのように大きく異なるのでしょうか?中央値の広がりによるものですか?2を比較する箱ひげ図は、2番目のものが最初のものよりもはるかに多くの外れ値を持っていることを示しています。提案をありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.