タグ付けされた質問 「multiple-comparisons」

複数の仮説検定が実行されたときに、意図されたパワーとサイズの達成が懸念される状況を示します。

1
事後比較テストまたは計画比較テストに直接ジャンプするのではなく、ANOVAを使用するのはなぜですか?
グループ間ANOVAの状況を見ると、実際にそのようなANOVAテストを実際に実行し、2番目に事後(Bonferroni、Shidákなど)または計画比較テストを実行すると何が得られますか?ANOVAの手順を完全にスキップしてみませんか? このような状況で、グループ間ANOVAの利点の1つは、TukeyのHSDを事後テストとして使用できることです。後者では、関連する標準誤差を計算するために、ANOVAテーブルのグループ内平均平方が必要です。ただし、対応のないt検定に対するBonferroniとŠidákの調整には、ANOVA入力は必要ありません。 グループ内の分散分析の状況についても同じ質問を提起したいと思います。そのような場合、テューキーのHSDテストは、この質問をさらに緊急にする関連する考慮事項ではありません。

1
多重比較文献における「依存」テストと「独立」テストの平易な言葉の意味は?
家族ごとのエラー率(FWER)と誤発見率(FDR)の両方の文献で、FWERまたはFDRを制御する特定の方法は、依存テストまたは独立テストに適していると言われています。たとえば、1979年の論文「A Simple Sequentially Rejective Multiple Test Procedure」では、ホルムはステップアップシダック法とステップアップボンフェローニ制御法を対比するために次のように書いています。 テスト統計が独立している場合、同じ計算上の単純さが得られます。 BenjaminiとHochbergによる「偽発見率の制御」(1995)で、著者は次のように書いています。 定理1のための独立した検定統計量及び偽ヌル仮説の任意の構成のために、上記の手順コントロールFDRにおいて。q∗q∗q^{*} その後、2001年に、ベンジャミニとイェクティエリは次のように書いています。 1.3。問題。実際にはFDRのアプローチを使用しようとすると、依存テスト統計はより頻繁に遭遇している独立したもの、その好例であること上記の複数のエンドポイントの例。 これらの著者は、扶養家族のどの特定の意味を使用していますか?テストが明確な言語の説明を伴う場合、テストを相互に依存または独立させるものの正式な定義に満足しています。 考えられるいくつかの異なる意味を考えることができますが、もしあれば、それらは次のようになるかもしれません: 「従属」とは、多変量検定(つまり、同じまたは類似の予測子を持つ多くの従属変数)を意味します。独立とは、単変量テスト(つまり、多くの独立変数、1つの従属変数)を意味します。 「依存」とは、ペアになった/一致した被験者に基づくテスト(ペアになったt検定、反復測定ANOVAなど)を意味します。「独立」とは、対応のない/独立したサンプル研究デザインを意味します。 「依存」とは、テストが拒否される確率が別のテストが拒否される確率と相関することを意味し、「正の依存」とは、この相関が正であることを意味します。「独立」とは、拒否確率が無相関であることを意味します。 参照 Benjamini、Y。およびHochberg、Y。(1995)。誤検出率の制御:複数のテストに対する実用的かつ強力なアプローチ。王立統計学会誌。シリーズB(方法論)、57(1):289–300。 Benjamini、Y。およびYekutieli、D。(2001)。依存関係にある複数のテストでの偽発見率の制御。統計学年報、29(4):1165–1188。 ホルム、S。(1979)。単純な連続的に拒絶する複数のテスト手順。Scandinavian Journal of Statistics、6(65-70):1979。

1
ボンフェローニまたはテューキー?比較の回数が多くなるのはいつですか?
SPSS(第3版)を使用したフィールドの統計情報の読み取りANOVAでの事後検定について少し感銘を受けました。タイプIエラー率を制御したい人のために、彼はBonferroniまたはTukeyを提案し、述べています(p。374)。 ボンフェローニは、比較の数が少ない場合により多くの力を持ちますが、テューキーは多数の平均をテストする場合により強力です。 少数の手段と多数の手段の間にどこに線を引きますか?

2
コンピューターベースの実験/シミュレーションにおける残差の独立性?
古科学で使用されている特定のタイプのモデルに適合するさまざまな方法のコンピューターベースの評価を実施しました。大規模なトレーニングセットがあるため、テストセットをランダムに(階層化されたランダムサンプリングで)設定しました。トレーニングセットサンプルに異なる方法を適合させ、結果モデルを使用して、テストセットサンプルの応答を予測し、テストセット内のサンプルのRMSEPを計算しました。これは単一の実行です。mmmmmm その後、新しいテストセットをランダムにサンプリングして異なるトレーニングセットを選択するたびに、このプロセスを何度も繰り返しました。 これを行った後、メソッドのいずれかがRMSEPのパフォーマンスを改善するか、悪化させるかを調査したいと思います。また、ペアワイズ法の複数の比較を行いたいです。mmm 私のアプローチは、線形混合効果(LME)モデルをRunの単一のランダム効果に適合させることでした。私は使用lmer()からlme4のからの私のモデルや機能に合わせてパッケージmultcompの多重比較を行うためのパッケージ。私のモデルは本質的に lmer(RMSEP ~ method + (1 | Run), data = FOO) ここmethodで、テストセットのモデル予測を生成するために使用されたメソッドを示す要因であり、「実験」のRun特定の実行ごとのインジケータです。 私の質問は、LMEの残差に関するものです。実行の単一のランダム効果を考えると、ランダム効果がもたらす誘導相関に基づいて、その実行のRMSEP値はある程度相関しているが、実行間で無相関であると想定しています。 この実行間の独立性の仮定は有効ですか?そうでない場合は、LMEモデルでこれを説明する方法がありますか、または質問に答えるために別のタイプの静的分析を採用する必要がありますか?

5
曲線間の類似性測定?
私は下の点の2つの順序セット---のものとの間の類似性の尺度を計算したいユーザーの下でのものと比較先生: ポイントは3D空間の曲線ですが、図のように2次元でプロットすると問題が簡単になると考えていました。ポイントが重複する場合、類似度は100%でなければなりません。

1
FDRの制御がFWERの制御よりも厳しくないのはなぜですか?
Wikipediaのように、FDRの制御はFWERの制御よりも厳しくないことを読みました。 FDR制御手順は、Familywise Error Rate(FWER)手順(Bonferroni修正など)と比較して、誤った発見に対する厳格な制御を行いません。これにより、タイプIのエラー率が増加しますが、パワーが増加します。つまり、効果があるという帰無仮説を受け入れるべきときに拒否します。 しかし、数学的にどのように真実であることが示されているのだろうか? FDRとFWERの間に何らかの関係がありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
機械学習分類器の大規模または複雑さ
新しい分類アルゴリズムのパフォーマンスを評価するために、精度と複雑さを比較しようとしています(トレーニングと分類でのビッグO)。Machine Learningから:レビュー完全な教師付き分類子リスト、アルゴリズム間の精度表、およびUCIデータリポジトリからの44のテスト問題を取得します。ただし、次のような一般的な分類子のレビュー、論文、またはウェブサイトが見つかりません。 C4.5 RIPPER(これは不可能かもしれないと思うが、誰が知っているか) 逆伝播を伴うANN 素朴なベイジアン K-NN SVM 誰かがこれらの分類子の式を持っている場合、それは非常に役立ちます、ありがとう。

2
が小さい
4つの異なる時点(治療前、治療終了日、治療終了後4週間、治療終了後2〜4か月)での鉄レベルに対する治療の効果を調べる研究のために分析するデータが与えられました。制御グループはありません。彼らは、治療前(ベースライン)レベルまでの3つの治療後の時点のそれぞれで鉄レベルの有意な増加があるかどうかを探しています。11人の患者はベースラインレベルを持ちましたが、4つの時点すべてについて完全なデータを持っていた患者は8人だけでした(各時点でnnn = 11、10、9、および8)。鉄のレベルが測定されただけでなく、ベースラインと比較するために、各時点で2つの実験室測定が行われました。 これを分析する方法についていくつか質問があります。このデータを分析するにはRM ANOVAが適切だと最初に思いましたが、サンプルサイズが小さいこと、データの損失、データの非正規分布が心配でした。次に、ウィルコクソンの符号付きランク検定を使用して、各治療後の測定値をベースラインと比較することを検討しましたが、その後、多重比較の問題に遭遇しました。ただし、複数の比較を実行する必要があると軽視している文献をいくつか読みました。全体として、私は小さなサンプルサイズ、不完全なデータ、多重比較(および必要かどうか)を扱っています。 これがすべて理にかなっていることを望みます。私はCrossValidatedを初めて使用し、経験豊富な統計学者から学ぶための場所として同僚から指示されたので、アドバイスをいただければ幸いです。ありがとう! コメントから生データを追加するように編集: 合計4つの時点があり、結果変数は連続的です。たとえば、各時点での結果は次のようになります。 Baseline (n=11): [2, 7, 7, 3, 6, 3, 2, 4, 4, 3, 14] 1st Post (n=10): [167, 200, 45, 132, ., 245, 199, 177, 134, 298, 111] 2nd Post (n=9): [75, 43, 23, 98, 87, ., 300, ., 118, 202, 156] 3rd …

2
健全な段階的回帰?
バイナリ分類子を作成するとします。私は数千の機能と数十のサンプルしか持っていません。ドメインの知識から、クラスラベルは少数の機能のみを使用して正確に予測できると信じるに十分な理由がありますが、どの機能かはわかりません。また、最終決定ルールを解釈/説明しやすくし、さらにいくつかの機能を必要とします。私の機能の特定のサブセットは高度に相関しているため、最も予測の少ない少数を個別に選択しても機能しません。また、自分の機能に対して仮説検定を有意義に実行できるようにしたいと考えています。 これらの条件下で、次の段階的な回帰手順は妥当ですか? モデルに既に存在する特徴(または最初の反復での切片のみ)が与えられると、モデルに追加されたときに最大の対数尤度比を生成する特徴を選択します。尤度比カイ二乗検定を使用して、この選択で実行された各仮説検定の名目P値を計算します。ここでのヌルは、追加の変数をモデルに追加しても追加の予測機能が提供されないことです。代替手段は、予測能力を高めることです 各反復のステップ1でテストされた仮説を家族として扱い、Benjamini-Hochbergのようなものを使用して、最小のP値(選択した特徴)の誤検出率を計算します。 いくつかの停止基準が満たされない限り、1に移動します。 個々のフィーチャの誤検出率を報告しますが、モデル全体のP値は報告しません(これは大幅に膨張するため)。これらの複数のテストで修正されたP値のそれぞれは、以前にモデルに追加されたすべての機能を考慮して、その機能の統計的有意性を表します。 これらの状況下でこのようなことをすることで、ステップワイズ回帰の典型的な批判をすべてうまく回避できますか?この方法で誤検出率は合理的に計算されていますか?

2
Benjamini-Hochbergで調整されたp値の式は何ですか?
手順とそれが制御するものを理解しています。それでは、多重比較のためのBH手順の調整されたp値の式は何ですか? たった今、オリジナルのBHが調整されたp値を生成せず、(非)拒否条件のみを調整したことに気付きました:https : //www.jstor.org/stable/2346101。Gordon Smythは、とにかく2002年に調整されたBH p値を導入したので、問題は依然として当てはまります。p.adjustmethodと同様にRで実装されていBHます。

1
ANOVAのテストの
イントロ:この質問で、今日受け取っ注意を指摘した、「?ペアワイズt検定のいずれでもないとき缶ANOVAが重要である、」私は答えの独自のセットに値するだろう面白い方法でそれをリフレームすることができるかもしれないと思いました。 統計的有意性が単純な二分法として理解され、より高い基準に基づいて判断される場合、または場合、さまざまな不整合な結果(額面)が発生する可能性があります。上記の質問に対する @Glen_bの回答は、次の場合の有用な例を示しています。P αppα\alpha ANOVA F検定FFは、4つのレベルを持つ1つの独立変数(IV)に対してp F &lt; .05pF&lt;.05p_F<.05を生成しますが、 IVの4つのレベルの各ペアに対応する観測値間で、同じ従属変数(DV)の差を比較するpt&gt;.08p_t>.08すべての2サンプル ttt検定で p t &gt; .08。 この質問による事後のペアワイズ比較のボンフェローニ補正にもかかわらず、同様のケースが発生しました:Anovaの反復測定は重要ですが、ボンフェローニ補正とのすべての多重比較はそうではありませんか?重回帰のテストがわずかに異なる前述のケースも存在します。 有意なF統計量(p &lt;.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?:P F &lt; 0.001 、P β T &gt; 0.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回帰はどのように有意であるが、すべての予測変数は有意ではないのでしょうか? @ whuberさんに答え、P F = 0.0003 、P β T &gt; 0.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 私は賭けてこのような場合には、ことをいくつかの(すべてではない)ペアごとの比較(または回帰係数有意性検定)のppp値はかなり近いでなければならないαα\alpha対応オムニバステストが達成できるかどうかのp &lt; αをp&lt;αp <\alpha。私は、これがGlen_bの最初の例@における場合であり、参照F (3 、20 ) = 3.19F(3,20)=3.19F_{(3,20)}=3.19、P F = …

2
毎回異なる値を返すRのダネットのテスト
R 'multcomp'ライブラリ(http://cran.r-project.org/web/packages/multcomp/)を使用して、ダネットのテストを計算しています。以下のスクリプトを使用しています。 Group &lt;- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value &lt;- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data &lt;- data.frame(Group, Value) aov &lt;- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) これで、Rコンソールでこのスクリプトを複数回実行すると、毎回非常にわずかに異なる結果が得られます。次に例を示します。 Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = Value ~ Group, data = data) Linear Hypotheses: Estimate Std. Error t value Pr(&gt;|t|) …

2
部分的なランキングのリストをグローバルランキングに変換する
私は次のような問題に取り組んでいます。私はたくさんのユーザーとN本を持っています。各ユーザーは、たとえばBook 1&gt; Book 40&gt; Book 25のように、読んだすべての本(N本のサブセットである可能性が高い)の順序付けられたランキングを作成します。 ここで、これらの個々のユーザーのランキングを、すべての本の単一の順序付けされたランキングに変えたいと思います。 試みる良いまたは標準的なアプローチはありますか?これまでのところ、ブラッドリー・テリーのモデルをペアワイズ比較に適用することを考えていますが、他に何かあるのか疑問に思っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.