タグ付けされた質問 「wilcoxon-mann-whitney」

ウィルコクソン順位和検定は、マンホイットニーU検定とも呼ばれ、2つのサンプルの一方が他方よりも大きいかどうかを評価するノンパラメトリックランク検定です。

3
Wilcoxonテストの漸近的な相対的効率が、正規分布データのスチューデントのt検定と比較されるのはなぜですか?
Wilcoxonの符号付きランク検定の漸近相対効率(ARE)は、データが正規分布の母集団から引き出される場合、スチューデントのt検定と比較してことはよく知られています。これは、基本的な1サンプルテストと2つの独立したサンプルのバリアント(Wilcoxon-Mann-Whitney U)の両方に当てはまります。また、通常のデータのANOVA Fテストと比較したクラスカルワリステストのAREです。3π≈0.9553π≈0.955\frac{3}{\pi} \approx 0.955 この驚くべき(私にとっては、「最も予期しない外観のππ\pi 1つ」)と驚くほど単純な結果は、洞察力に富んだ、驚くべき、または単純な証拠を持っていますか?

2
Mann-Whitney U検定:効果サイズの信頼区間
フリッツ、モリス、及びRichler(2011;下記参照)によれば、式を使用してマン・ホイットニーU検定のための効果の大きさとして算出することができる これは便利であることを私、他の機会にもを報告します。効果の大きさの尺度に加えて、の信頼区間を報告したいと思います。rrrr=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr 私の質問は次のとおりです。 ピアソンのrのようにrの信頼区間を計算できますが、ノンパラメトリック検定の効果サイズの尺度として使用されますか? 片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか? 2番目の質問に関する編集:「片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか?」 私は、私見がこの質問に答えるかもしれないいくつかの情報を見つけました。「両側の信頼限界は信頼区間を形成しますが、片側の信頼限界は信頼限界の下限または上限と呼ばれます。」(http://en.wikipedia.org/wiki/Confidence_interval)。この情報から、有意性検定(たとえば、)が片側か両側かは主な問題ではなく、影響の大きさのCIに関してどのような情報に関心があるかを結論付けます。私の結論(あなたが同意しない場合は私を修正してください):ttt 両側CI →→\rightarrow上限と下限に関心(結果として、両側CIが0を伴う可能性がありますが、有意性の片側検定はp <.05でしたが、特に値が。 05.) 片側の「CI」→→\rightarrow上限または下限にのみ関心がある(理論的推論による); ただし、これは必ずしも有向仮説をテストした後の主な関心事ではありません。エフェクトサイズの可能な範囲に焦点が当てられている場合、両面CIは完全に適切です。正しい? 上記の記事からのMann-Whitney検定の効果サイズの見積もりに関するFritz、Morris、&Richler(2011)の文章の一節については、以下を参照してください。 「ここで説明したエフェクトサイズの推定値のほとんどは、データが正規分布を持っていることを前提としています。ただし、一部のデータはパラメトリックテストの要件を満たしていません。通常は、Mann-WhitneyやWilcoxon検定などのノンパラメトリック統計検定を使用しますこれらの検定の有意性は、通常、標本サイズが小さすぎない場合の検定統計の分布を分布に近似することで評価されます。これらのテストを実行するSPSSなどのパッケージは、または値に加えて適切な値を報告します;zzzzzzうんうんUTTTzzz手動で計算することもできます(例:Siegel&Castellan、1988)。値は、次のような、効果の大きさを計算するために使用され得るコーエン(1988)によって提案されました。Cohenのrに関するガイドラインでは、大きな効果は0.5、中程度の効果は.3、小さな効果は.1です(Coolican、2009、p。395)。、を計算するのは簡単ですzzzrrrrrrr2r2r^2、又はこれらからZ値ので 、R = Zη2η2\eta^2zzz および r2r = zN−−√r=zN r = \frac{z}{\sqrt N} これらの効果サイズの推定値は、式にNが含まれているにもかかわらず、サンプルサイズに依存しません。これは、zがサンプルサイズに敏感だからです。Nの関数で除算すると、結果の効果サイズの推定値からサンプルサイズの効果が削除されます。 "(p。12)r2O Rη2= z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 = \frac{z^2}{N}

1
Rのウィルコクソン順位和検定
2つの独立したサンプルに同じテストを適用した結果があります。 x <- c(17, 12, 13, 16, 9, 19, 21, 12, 18, 17) y <- c(10, 6, 15, 9, 8, 11, 8, 16, 13, 7, 5, 14) そして、ウィルコクソンのランクサムテストを計算します。 手作業で統計を計算すると、次のようになります: T W = ∑ rank (X i)= 156.5TWTWT_{W}TW= ∑ ランク(X私)= 156.5TW=∑ランク(バツ私)=156.5 T_{W}=\sum\text{rank}(X_{i}) = 156.5 Rにaを実行させるとwilcox.test(x, y, correct = F)、次のようになります。 W = …

1
Rのwilcox.testとcoin :: wilcox_testの違いは何ですか?
これらの2つの関数はRに存在しますが、それらの違いはわかりません。で呼び出すwilcox.testと、同じp値のみを返すようですcorrect=FALSE、とwilcox_testとの(コインパッケージ内)distribution="aymptotic"。他の値の場合、異なるp値を返します。またwilcox.test、パラメータの設定とは関係なく、データセットに対して常にW = 0を返します。 x = c(1, 1, 1, 3, 3, 3, 3) そして y = c(4, 4, 6, 7, 7, 8, 10) また、R以外のさまざまなツール(オンラインで利用できるもの、Excelアドオンとして利用できるもの)を使用しようとすると、異なるp値が報告されることがあります。 それで、どのツールが「正しい」p値を与えているかをどうやって知ることができますか? 「正しい」p値はありますか、またはいくつかのツールがp値を0.05未満にする場合、私は幸せでしょうか?(これらのツールはRのようなパラメーター化の可能性をあまり提供しない場合があります。) ここで何が欠けていますか?


1
序数データの表示-平均、中央値、平均ランク
正規分布されていない序数データが​​あるため、Mann-Whitney U検定を使用してノンパラメトリック検定を行うことにしました。7つのスコアについてグループ間の違いを調べています。これらのスコアは、各被験者について0、1、2、または3のいずれかです。データの表示方法を理解するのに苦労しています! 中央値(および中央値の IQR)を使用してデータを提示する場合、違いがどこにあるかはまったく明らかではありません。それは、ほとんどの場合、中央値が0または1にあるためです。テーブルは面白くないように見えます。 手段を使用してデータを提示することもできます。序数データで平均を使用できるが、スコア間の差異について同じタイプの仮定を行うことはできないとする科学論文がいくつかあります(たとえば、0と1の差異は1と1の差異と同じではありません) 2)。手段を使用することは少し物議を醸すでしょうが、私がそれらを使用するとき、表の数字は物語をよく伝えます。 3番目のオプションは、マンホイットニーの出力でSPSSが私に与える平均ランクを使用することです。平均ランクはグループ間で比較されているものなので、多分私はそれらを使用する必要がありますか?これに関して私が抱えている唯一の問題は、平均ランクが実際のデータに関して実際には何も意味しないことです(たとえば、平均ランクを使用すると、コントロールが1に近いのに、対象が3に近いことがわかりません。) そして最後のオプションは、スコアを2つのグループ(0と1は低、2と3は高)に分割した後、被験者とコントロールを比較するカイ2乗分析を実行することでした。しかし、私がこれを行ったとき、違いはそれほど明白ではありませんでした(おそらくいくつかの理由のため)。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
マンホイットニー検定の帰無仮説とは何ですか?
してみましょう分布1からランダムな値であるとしましょう、私はマンホイットニー検定のための帰無仮説があったと思っ分布2からのランダム値である。X1X1X_1X2X2X_2P(X1&lt;X2)=P(X2&lt;X1)P(X1&lt;X2)=P(X2&lt;X1)P(X_1 < X_2) = P(X_2 < X_1) 平均と分散が等しく、正規分布のデータに対してマンホイットニー検定のシミュレーションを実行すると、に非常に近いタイプIのエラー率が得られます。ただし、分散を不均等にする(ただし、平均は等しくする)と、であるため、帰無仮説が棄却されるシミュレーションの割合はしない0.05より大きくなります。まだ保持されます。これは私が使用したときに起こるRに関係なく、私が持っているかどうかの、、、または。α=0.05α=0.05\alpha=0.05P(X1&lt;X2)=P(X2&lt;X1)P(X1&lt;X2)=P(X2&lt;X1)P(X_1 < X_2) = P(X_2 < X_1)wilcox.testexact=TRUEexact=FALSE, correct=TRUEexact=FALSE, correct=FALSE 帰無仮説は上で書いたものとは違うのですか、それとも、分散が等しくない場合、テストがタイプIエラーの点で不正確であるというだけですか?

1
マンホイットニー検定をどのように報告しますか?
私は学位論文を作成しており、いくつかのテストを実施しています。クラスカル・ウォリス検定を使用した後、私は通常、次のような結果を報告します。 有意差があるの手段との間に...(χ2(2)=7.448,p=.024)(χ(2)2=7.448,p=.024)(\chi^2_{(2)}=7.448, p=.024) しかし、今はマン・ホイットニー検定を実施しましたが、どの値を提示すべきかわかりません。SPSSは、マンホイットニー、ウィルコクソンW、ZおよびP値を私に与えます。これらの4つの値をすべて提示しますか?それとも無関係ですか?UUUWWWZZZPPP

2
RにおけるWilcoxon-Mann-Whitneyの臨界値
Rを使用してマンホイットニーUの臨界値を見つけようとすると、値は常に1+臨界値であることに気づきました。たとえば、場合、(両側)臨界値は8ですが、α = .05 、n = 12 、m = 8の場合、(両側)臨界値値は22(表を確認)ですが、次のようになります。α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α=.05,n=12,m=8α=.05,n=12,m=8\alpha=.05, n=12, m=8 &gt; qwilcox(.05/2,10,5) [1] 9 &gt; qwilcox(.05/2,12,8) [1] 23 もちろん、私は何かを考えていませんが...なぜ誰かが私に理由を説明できますか?

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
テストでのマンホイットニーテストの能力
したがって、Mann Whitney U検定は、正規性と均一分散のt検定の仮定が満たされている場合、t検定と比較して約95%強力です。これらの仮定が満たされていない場合、Mann Whitney U検定はt検定よりも強力であることも知っています。私の質問は、仮定が満たされていないデータでのマンホイットニー検定は、仮定が満たされているデータでのt検定と同じくらい、またはほとんど強力ですか? テストで実行するという仮定に基づいて電力計算をしている人をよく目にするので、私は尋ねています。彼らはデータを収集した後、データを探索し、代わりにマンホイットニー検定を使用することを決定します。テストの変更が電力にどのように影響するかを再訪しません。 ありがとう!

4
クラスカル・ウォリスとマン・ホイットニーが矛盾する結果を返しているように思われる場合、どの結果を選択しますか?
値が10ポイントのリッカートアイテムへの応答である次のグループがあります。 g1 &lt;- c(10,9,10,9,10,8,9) g2 &lt;- c(4,9,4,9,8,8,8) g3 &lt;- c(9,7,9,4,8,9,10) したがって、私はクラスカル・ウォリスを使用してグループ内の応答間の違いを判断し、結果は次のとおりでした。 Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091 ただし、グループg1とグループg2の間で正確なマンホイットニー検定を実行すると、次のようになります。 Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test) Z = 2.3939, p-value = 0.02797 これは、alpha = 0.05で有意差を返します。 どのテストを選択する必要がありますか。その理由は何ですか。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.