タグ付けされた質問 「permutation-test」

帰無仮説と一致するデータの再配置に基づく統計的検定。

2
リサンプリング/シミュレーション方法:モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト
さまざまなリサンプリング方法(モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト)とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。 次のような状況があるとしましょう。Y変数(Yvar)とX変数(Xvar)を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。 (1)p値の重要性–偽発見率 (2)Xvarレベルの 効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。 編集: 私の試みは次のとおりです。 ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …

4
見て、あなたは見つける(相関関係)
数百の測定値があります。今、私は何らかのソフトウェアを利用して、すべてのメジャーをすべてのメジャーに関連付けることを検討しています。これは、数千の相関があることを意味します。これらの中には、データが完全にランダムである場合でも(統計的に)高い相関があります(各メジャーには約100個のデータポイントしかありません)。 相関関係を見つけた場合、相関関係を探したときの情報をどのように含めることができますか? 私は統計のレベルが高いわけではありませんので、ご容赦ください。

6
Rのどの置換テストの実装をt検定(ペアおよび非ペア)の代わりに使用しますか?
t検定を使用して分析した実験のデータがあります。従属変数は間隔スケーリングされ、データはペア化されていない(つまり、2つのグループ)か、ペアリングされています(つまり、被験者内)。例(被験者内): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) ただし、データは正常ではないため、あるレビューアがt検定以外の何かを使用するように依頼しました。ただし、簡単にわかるように、データは正規分布しているだけでなく、条件間で分布が等しくありません。 したがって、通常のノンパラメトリック検定であるMann-Whitney-U-Test(unpaired)およびWilcoxon Test(paired)は、条件間で均等に分布する必要があるため使用できません。したがって、いくつかのリサンプリングまたは置換テストが最適であると判断しました。 今、私はt検定の置換ベースの同等物のR実装、またはデータをどうするかについての他のアドバイスを探しています。 私にこれを行うことができるいくつかのRパッケージ(コイン、パーマ、exactRankTestなど)があることは知っていますが、どれを選ぶべきかわかりません。したがって、これらのテストを使用した経験のある人がキックスタートを提供できれば、それは非常にクールです。 …

3
ブートストラップと置換仮説のテスト
ブートストラップ、置換テスト、ジャックナイフなど、実際によく使用されるいくつかの一般的なリサンプリング手法があります。たとえば、Philip I Good(2010)Permutation、Parametric、Bootstrap Tests仮説の 私の質問は、どのリサンプリング手法がより人気があり、実装しやすいのですか?ブートストラップまたは置換テスト?

3
Rでブートストラップを使用してp値を計算する
「ブート」パッケージを使用して、近似の両側ブートストラップp値を計算しますが、結果はt.testを使用したp値から遠すぎます。Rコードで何が間違っていたかわかりません。誰かが私にこのヒントを教えてください time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) > abs(b3$t0)) pvalue 両側のブートストラップp値(pvalue)= 0.4804ですが、t.testの両側p値は0.04342です。両方のp値は約11倍の差があります。これはどのように起こりますか?

1
t検定の死亡の報告は非常に誇張されていますか?
CVの昔からの古典を読んで、はっきりさせたいと思う声明に出くわしました。これが投稿であり、私の質問は最後の発言に言及しています。「私が伝えた知識はすべて時代遅れであることに注意する必要があります。おそらく、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいでしょう。」 サンプル平均の分布がt検定を実行するのに十分に正常であると仮定するのが妥当かどうかについての心配がないことは、明らかに大きな利点です。そして、コンピューターは、2つのデータベクトル間の差の長いリストを簡単にランク付けできることを確認します。 それで、t検定は本当に過去のものですか?順列テストはどうですか?通常、数行のコードを書くという意味で、あまりにもアドホックですか?

2
順列検定の前提は何ですか?
置換テストには前提がないとよく言われますが、これは確かに真実ではありません。たとえば、サンプルが何らかの形で相関している場合、ラベルを並べ替えることは正しいことではないと想像できます。この問題について私が見つけたと思うのは、ウィキペディアの次の文章です。「置換テストの背後にある重要な仮定は、帰無仮説の下で観測値が交換可能であるということです。」私には分かりません。 順列検定の前提は何ですか?そして、これらの仮定は、考えられるさまざまな置換スキームにどのように関連していますか?

1
H0の下でブートストラップを使用して、2つの手段の違いのテストを実行します。グループ内またはプールされたサンプル内の置換
2つの独立したグループを持つデータがあるとします。 g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

3
非常に歪んだデータのt検定
私は、医療費データの数万件の観測データセットを持っています。このデータは非常に右に偏っており、多くのゼロがあります。2組の人々(この場合、それぞれ3000を超えるobsを持つ2つの年齢層)の場合、次のようになります。 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 このデータに対してウェルチのt検定を実行すると、結果が返されます。 Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative hypothesis: true …

2
順列検定で0に等しいP値
2つのデータセットがあり、それらが大幅に異なるかどうかを知りたい(これは、「2つのグループは大幅に異なる?使用するテスト」から得られます)。 私は置換テストを使用して、Rで次のことを行うことにしました。 permutation.test <- function(coding, lncrna) { coding <- coding[,1] # dataset1 lncrna <- lncrna[,1] # dataset2 ### Under null hyphotesis, both datasets would be the same. So: d <- c(coding, lncrna) # Observed difference diff.observed = mean(coding) - mean(lncrna) number_of_permutations = 5000 diff.random = NULL for (i in 1:number_of_permutations) …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ランダム化テストと置換テストの違い
文献では、ランダム化と順列という用語は同じ意味で使用されています。多くの著者が「順列(ランダム化)テスト」、またはその逆を述べています。 せいぜい、違いは微妙であり、データに関する想定と引き出すことができる潜在的な結論にあると信じています。私の理解が正しいかどうか、または私が見落としているより深い違いがあるかどうかを確認する必要があります。 順列検定では、基礎となる母集団分布(母集団モデル)からデータがランダムにサンプリングされることを想定しています。これは、置換テストから得られた結論が一般的に母集団からの他のデータに適用可能であることを意味します[3]。 ランダム化テスト(ランダム化モデル)は、「典型的な心理学的研究の信じがたい仮定を落とすことを許します---指定された分布からのランダムサンプリング」[2]。ただし、これは、得られた結論がテストで使用されたサンプルにのみ適用されることを意味します[3]。 確かに、違いは人口の定義に関してのみです。人口を「病気のすべての患者であり、治療に適している」と定義した場合、順列検定はその人口に対して有効です。しかし、人口を治療に適した人口に制限しているため、これは実際に無作為化テストです。 参考資料: [1] Philip Good、順列検定:仮説を検定するための再サンプリング方法の実用的なガイド。 [2] Eugene EdgingtonおよびPatric Onghena、ランダム化テスト。 [3] Michael Ernst、順列法:正確な推論の基礎

1
時系列をリサンプリングするこの方法は文献で知られていますか?名前はありますか?
私は最近、時系列をリサンプリングする方法を探していました。 長いメモリプロセスの自己相関をほぼ維持します。 観測のドメインを保持します(たとえば、整数のリサンプリングされた時系列は、整数の時系列のままです)。 必要に応じて、一部のスケールのみに影響する場合があります。 長さ時系列に対して次の順列スキームを思い付きました。2N2N2^N 連続する観測値のペアで時系列をビン化します(このようなビンは個あります2N−12N−12^{N-1})。それらの各(フリップフロッすなわちからインデックス1:2の2:1独立確率で)1/21/21/2。 得られた時系列を連続した444観測値でビン化します(個の2N−22N−22^{N-2}ビンがあります)。(それらの各々逆、すなわちからインデックスを1:2:3:4する4:3:2:1確率でindependelty)1/21/21/2。 サイズのビンと同じ手順を繰り返し888、161616、...、2N−12N−12^{N-1}常に確率でビンを逆転させる1/21/21/2。 このデザインは純粋に経験に基づいたものであり、この種の順列で既に公開されているであろう作品を探しています。また、他の順列やリサンプリングスキームの提案も受け付けています。

1
順列検定の信頼区間とP値の不確実性
私は今、ランダム化テストを学んでいます。私の頭に浮かぶ2つの質問があります。 はい、ランダム化テストでP値を計算する方法は簡単で直感的です(置換テストと同じだと思いますか?)。しかし、通常のパラメトリックテストで行うように、95%の信頼区間をどのように生成することもできますか? 順列検定に関するワシントン大学の文書を読んでいるときに、13ページに次のような文があります。 順列が1000の場合、p。0.05付近の不確実性は約 です。±1%±1%\pm 1\% どのようにしてこの不確実性を得るのでしょうか。

5
ノンパラメトリック検定(例:順列検定)で相互作用効果をテストする方法は?
私は2つのカテゴリ変数/名義変数を持っています。それぞれが2つの異なる値のみを取ることができます(したがって、合計で4つの組み合わせがあります)。 値の各組み合わせには、数値のセットが付属しています。だから、私は4セットの数字を持っています。より具体的にするために、私は名目変数として、および従属数値「出力」として持っているmale / femaleとyoung / oldしましょうweight。 からmaleへの移行femaleによって平均体重が変化し、これらの変化が統計的に有意であることを知っています。だから、gender因子を計算することができます。同じことがage変数にも当てはまります。からyoungへの移行oldによって平均重量が変わることは知っていますage。対応する係数を計算できます。 さて、若い女性から古い男性への移行が、性別と年齢の要因の組み合わせよりも多いことがデータで証明されているかどうか、私が本当に確認したいのは、つまり、「2Dの影響」があること、つまり年齢と性別の影響が独立していないことをデータが証明しているかどうかを知りたいのです。たとえば、男性の場合は年齢が上がると体重が1.3増加し、女性の場合は対応する係数が1.1になる可能性があります。 もちろん、私は2つの言及された要因(男性の年齢係数と女性の年齢係数)を計算でき、それらは異なります。しかし、私はこの違いの統計的有意性を計算したいと思います。この違いはどれほど本物ですか。 できれば、ノンパラメトリック検定をしたいのですが。4つのセットを混合し、シャッフルし、再分割して計算することで、やりたいことを実行できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.