タグ付けされた質問 「multiple-comparisons」

複数の仮説検定が実行されたときに、意図されたパワーとサイズの達成が懸念される状況を示します。

1
40,000の神経科学論文は間違っているかもしれません
エコノミストでこの記事を見て、一見壊滅的な [1]「40,000件の公開された[fMRI]研究のようなもの」に疑問を投げかけました。彼らによると、エラーは「誤った統計的仮定」によるものです。私はこの論文を読んで、部分的に多重比較修正の問題があることを確認しましたが、私はfMRIの専門家ではなく、従うのが難しいと感じています。 著者が話している誤った仮定は何ですか?なぜこれらの仮定がなされているのですか?これらの仮定を立てる方法は何ですか? 封筒の計算の裏には、40,000 fMRIの論文が10億ドル以上の資金(学生の卒業生の給与、運営費など)があると書かれています。 [1] Eklund et al。、Cluster failure:fMRIによる空間範囲の推論が偽陽性率を増大させた理由、PNAS 2016

4
見て、あなたは見つける(相関関係)
数百の測定値があります。今、私は何らかのソフトウェアを利用して、すべてのメジャーをすべてのメジャーに関連付けることを検討しています。これは、数千の相関があることを意味します。これらの中には、データが完全にランダムである場合でも(統計的に)高い相関があります(各メジャーには約100個のデータポイントしかありません)。 相関関係を見つけた場合、相関関係を探したときの情報をどのように含めることができますか? 私は統計のレベルが高いわけではありませんので、ご容赦ください。

5
多重比較のために重回帰のp値を調整するのは良い考えですか?
あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。 私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。

3
p値を組み合わせるとき、なぜ平均化しないのですか?
最近、p値を結合するFisherの方法について学びました。これは、nullの下のp値が一様分布に従うこと、および これは天才だと思います。しかし、私の質問は、なぜこの複雑な方法で行くのですか?そして、なぜp値の平均を使用し、中央限界定理を使用しないのですか?または中央値?この壮大な計画の背後にあるRAフィッシャーの天才を理解しようとしています。−2∑i=1nlogXi∼χ2(2n), given X∼Unif(0,1)−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

5
多重比較が問題になるのはなぜですか?
多重比較の問題が実際に何であるかを理解するのは難しいと思います。簡単な例えで言えば、多くの決定を下す人は多くの間違いを犯すと言われています。そのため、ボンフェローニ補正のような非常に保守的な予防策が適用され、この人が間違いを犯す可能性ができるだけ低くなるようにします。 しかし、間違った決定の割合ではなく、その人が行ったすべての決定の中で間違いを犯したかどうかを気にするのはなぜですか? 何が私を他の類推と混同するかを説明しよう。2人の裁判官がいて、1人は60歳、もう1人は20歳だとします。それからボンフェローニの訂正は、20歳の人に執行を決定する際に可能な限り保守的であるように伝えます。しかし、60歳の人はすぐに引退する可能性があり、意思決定が少なくなるため、他の人に比べて不注意になる可能性があります。しかし、実際には、両方の裁判官は、彼らが行う決定の総数に関係なく、同様に慎重または保守的でなければなりません。この類推は多かれ少なかれ、Bonferroni補正が適用される実際の問題に変換されると思います。

5
FDR制御に通常の方法を使用するための条件としての「正の依存関係」の意味
BenjaminiとHochbergは、False Discovery Rate(FDR)を制御するための最初の(そして今でも最も広く使用されていると思う)メソッドを開発しました。 それぞれ異なる比較のためのP値の束から始め、どの値が「ディスカバリー」と呼ばれるほど低いかを判断し、FDRを指定された値(たとえば10%)に制御します。通常の方法の仮定の1つは、比較のセットが独立しているか「正の依存関係」を持っていることですが、P値のセットを分析する文脈でそのフレーズが何を意味するか正確にはわかりません。

3
線形回帰における有意性の矛盾:係数の有意なt検定対有意でない全体的なF統計量
4つのカテゴリ変数(それぞれ4レベル)と数値出力の間に多重線形回帰モデルを当てはめています。データセットには43個の観測値があります。 回帰により、すべての勾配係数のから次の値が得られます:.15、.67、.27、.02。したがって、4番目の予測子の係数は、\ alpha = .05信頼レベルで有意です。pppttt.15 、.67 、.27 、.02.15、.67、.27、.02.15, .67, .27, .02α =0.05α=.05\alpha = .05 一方、回帰では、すべての勾配係数がゼロに等しいという帰無仮説の全体的なF検定からppp値が得られます。私のデータセットでは、このp値は.11です。FFFppp.11.11.11 私の質問:これらの結果をどのように解釈すればよいですか?どのppp値を使用する必要があり、その理由は何ですか?4番目の変数の係数は、\ alpha = .05信頼レベルで000と大きく異なりますか?α = 0.05α=.05\alpha = .05 私は、関連する質問、見てきたFFFとttt回帰で統計を、しかし逆の状況があった:高ttt検定ppp -値と低FFF検定ppp -値が。正直なところ、線形回帰係数がゼロと有意に異なるかどうかを確認するために、tテストに加えてFFFテストが必要になる理由はよくわかりません。ttt

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
混合効果モデルの多重比較
混合効果モデルを使用していくつかのデータを分析しようとしています。私が収集したデータは、遺伝子型の異なる若い動物の体重の経時変化を表しています。 ここで提案されているアプローチを使用しています:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特に、私はソリューション#2を使用しています だから私は次のようなものを持っています require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) ここで、複数の比較を行いたいと思います。multcomp私ができることを使用して: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) そして、もちろん、時間をかけて同じことができます。 2つの質問があります。 mcpTimeとGenotypeの相互作用を確認するにはどうすればよいですか? 実行するglhtと、次の警告が表示されます。 covariate interactions found -- default contrast might be inappropriate どういう意味ですか?安全に無視できますか?それともそれを避けるために何をすべきですか? 編集: 私は言うこのPDFを見つけました: この場合、対象のパラメーターを自動的に決定することは不可能であるため、multcompのmcp()は、デフォルトで、共変量と相互作用を無視して、主効果のみの比較を生成します。バージョン1.1-2以降、相互作用項と共変量の平均化を指定するには、それぞれ引数Interaction_average = TRUEとcovariate_average = TRUEを使用します。一方、1.0-0より古いバージョンは相互作用項の平均化を自動的に行います。ただし、ユーザーには、必要なコントラストのセットを手動で書き出すことをお勧めします。デフォルトのコントラストの測定値に疑問がある場合はいつでもこれを行う必要があります。これは通常、高次の相互作用項を持つモデルで発生します。この問題に関するさらなる議論と例については、Hsu(1996)のChapter〜7とSearle(1971)のChapter〜7.3を参照してください。 私はそれらの本にアクセスできませんが、おそらく誰かがここにいますか?

5
データの「探査」とデータの「s索」/「拷問」
多くの場合、「データスヌーピング」に対する非公式の警告に遭遇しました(ここに1つの面白い例があります)。おおよそ、それが何を意味するのか、なぜそれが問題になるのかについて直感的な考えを持っていると思います。 一方、「探索的データ分析」は、少なくともそのタイトルの本が依然として古典として敬意を表して引用されているという事実から判断すると、統計学において完全に立派な手順であるように思われます。 私の仕事では、頻繁に「データスヌーピング」のように見えるものに出くわします。あるいは、「データの拷問」と表現する方が良いかもしれません。「。 典型的なシナリオは次のとおりです。コストのかかる実験が行われ(その後の分析についてあまり考慮されず)、元の研究者は収集されたデータの「ストーリー」を容易に識別できず、誰かが「統計的魔法」を適用するために連れてこられます。 、あらゆる方法でデータをスライスおよびダイシングした後、最終的にそこから発行可能な「ストーリー」を抽出します。 もちろん、統計分析が最新のものであることを示すために、通常、最終レポート/論文にいくつかの「検証」がスローされますが、その背後にある露骨な公開コストの態度はすべて私を疑わしいものにしています。 残念ながら、データ分析のすべき点と悪い点についての私の限られた理解は、私がそのような曖昧な疑いを超えないようにしているので、私の保守的な対応は基本的にそのような発見を無視することです。 私の希望は、探検とbetween索/拷問の区別をよりよく理解するだけでなく、さらに重要なことには、その線が交差したときを検出するための原理と技術をよりよく把握することで、そのような発見を評価できるようになることです最適とは言えない分析手順を合理的に説明できる方法であり、それにより、私の現在のかなり単純なブランケット不信の反応を超えることができます。 編集:非常に興味深いコメントと回答をありがとうございました。彼らの内容から判断すると、私の質問を十分に説明できなかったのではないかと思います。このアップデートで問題が明確になることを願っています。 ここでの私の質問は何そんなにない懸念私は拷問を避けるために行う必要があり、私の(これも私に興味という質問ですが)データを、ではなく、:どのように私は考えて(または評価)する必要があることの結果、私は事実を知っているが通過到着されましたそのような「データ拷問」。 状況は、それらの(よりまれな)ケースでさらに興味深いものになります。さらに、そのような「調査結果」について、出版に向けて提出される前に意見を述べる立場にあります。 この時点で、ほとんどの私にできることは、のようなものと言っている「私は私がそれらを得るに行きました仮定や手続きについて知っていることを考えると、これらの知見に与えることができますどのくらい信憑知りませんが。」 これはあいまいすぎて、言う価値さえありません。 このような曖昧さを超えたいと思ったことが、私の投稿の動機でした。 公平を期すために、ここでの私の疑問は、一見疑問のある統計的手法以上のものに基づいています。実際、後者は、より深い問題の結果であると考えています。実験設計に対する無頓着な態度と、結果をそのままの状態で(つまり、さらなる実験なしで)公開するというカテゴリー的なコミットメントの組み合わせです。もちろん、フォローアッププロジェクトは常に構想されていますが、たとえば「100,000個のサンプルで満たされた冷蔵庫」から1枚の紙が出てくるということは、まったく問題ではありません。 統計は、この最高の目標を達成するための手段としてのみ登場します。統計にラッチする唯一の正当化(シナリオ全体の二次的)は、「すべてのコストでの出版」の前提に対する正面からの挑戦は無意味であるということです。 実際、このような状況で効果的な応答は1つだけだと考えることができます。分析の品質を真にテストする統計テスト(追加の実験を必要としない)を提案することです。しかし、私はそれについて統計のチョップを持っていません。私の希望(振り返ってみると素朴)は、私がそのようなテストを思いつくことができるかもしれないことを研究することができるかを見つけることでした... 私がこれを書いているとき、もしそれがまだ存在していなければ、世界は「データ拷問」を検出して公開するためのテクニックに専念する統計の新しいサブブランチを使用できることを知っています。(もちろん、「拷問」のメタファーに夢中になることを意味するものではありません。問題は「データ拷問」そのものではなく、それがもたらす偽の「発見」です。)

6
バイナリ分類の変数選択手順
学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか?ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。 一貫性の表記法を修正できます:場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴(特徴空間の次元をIE)であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。 編集(継続的に更新):以下の回答で提案されている手順 貪欲な前方選択 バイナリ分類のための変数選択手順 バイナリ消去のための後方消去変数選択手順 メトロポリススキャン/ MCMC バイナリ分類の変数選択手順 ペナルティ付きロジスティック回帰 バイナリ分類の変数選択手順 これはコミュニティWikiであるため、より多くの議論と更新があります。 ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します(機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか?)この方向の答えは?これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして(?私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を(非常に高次元の分類で使用される変数))

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
信頼区間を使用する場合、複数の比較調整に対処する必要がありますか?
ペアワイズ統計の事後推論などの多重比較シナリオ、または合計比較を行う多重回帰のようなシナリオがとします。また、信頼区間を使用してこれらの倍数での推論をサポートしたいとします。mmm 1. CIに複数の比較調整を適用しますか?これは、複数の比較がの再定義強要と同じように、あるのいずれかに家族的なエラー率(FWER)または偽発見率(FDR)の意味ない自信(または信頼性1、または不確実性、または予測を、または推測...間隔を選択してください)複数の比較によって同様に変更されますか?ここで否定的な答えをすると、残りの質問が無意味になることがわかります。αα\alpha 2.仮説検定から区間推定への多重比較調整手順の簡単な翻訳はありますか?たとえば、信頼区間内の項の変更に焦点を合わせます:?CIレベルCIレベル\text{CI-level}CIθ= (θ^± t(1 − CIレベル)/ 2σ^θ)CIθ=(θ^±t(1−CIレベル)/ 2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta}) 3. CIのステップアップまたはステップダウン制御手順にどのように対処しますか?仮説テストアプローチから推論への家族ごとのエラー率調整の一部は、静的なものであり、個々の推論に対してまったく同じ調整が行われます。たとえば、Bonferroniの調整は、拒否基準を以下から変更することにより行われます。 が次の場合に拒否します:P ≤α2p≤α2p\le \frac{\alpha}{2} であれば拒否P ≤ α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m} しかし、ホルム-ボンフェローニのステップアップ調整は「静的」ではなく、次の方法で行われます。 最初に値を最小から最大に並べ、次にppp 場合、(は値の順序をインデックス付けします)まで拒否しますp ≤ 1 - (1 - α2)1m + 1 − ip≤1−(1−α2)1m+1−私p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}私私ippp 帰無仮説を棄却できず、その後のすべての帰無仮説を自動的に棄却できません。 CIで拒否/拒否の失敗は発生しないため(より正式には、以下の参照を参照)、それはステップワイズプロシージャが変換されないことを意味します(つまり、すべてのFDRメソッドを含む)。ここで、CIを仮説検定に変換する方法を尋ねていないことに注意する必要があります(以下に引用する「視覚的仮説検定」の代表者は、その重要な質問に答えます)。 4. 1で括弧で言及した他の間隔についてはどうですか? 1まあ、この言葉をここで使うことで、甘くて甘いベイジアンスタイルのロッキンに悩まされないことを願っています。:) 参照 Afshartous、D.およびPreston、R.(2010)。依存データの信頼区間:統計的有意性のある非重複の等化。計算統計とデータ分析、54(10):2296-2305。 カミング、G。(2009)。目による推論:独立した信頼区間の重複を読み取ります。Statistics In Medicine、28(2):205–220。 …

1
RのGLM後の因子のレベルの比較
ここに私の状況についての少しの背景があります。私のデータは、捕食者が首尾よく食べた獲物の数を参照しています。各トライアルでは獲物の数が限られているため(25個が利用可能)、使用可能な獲物の数を表す「サンプル」列(各トライアルでは25個)と、成功の数である「カウント」何匹の獲物が食べられたか)。プロポーションデータに関するRブック(578ページ)の例に基づいて分析を行いました。説明変数は体温(私は因子として扱った4つのレベル)、および捕食者の性別(明らかに、男性または女性)です。だから私はこのモデルになります: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) Analysis of Devianceテーブルを取得した後、温度と性別(相互作用ではない)が獲物の消費に大きな影響を与えることがわかりました。さて、私の問題:どの温度が異なるかを知る必要があります。つまり、4つの温度を互いに比較する必要があります。線形モデルがあれば、TukeyHSD関数を使用しますが、GLMを使用しているため、使用できません。パッケージMASSを調べて、コントラストマトリックスを設定しようとしましたが、何らかの理由で機能しません。提案や参考文献はありますか? モデルを明確にするのに役立つ場合は、モデルから取得した要約を次に示します... y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

2
少量サンプル研究での探索的データ分析とデータdrへの対処方法
探索的データ分析(EDA)は、多くの場合、必ずしも初期の仮説セットに属するとは限らない他の「トラック」を探索することにつながります。サンプルサイズが限られており、さまざまなアンケート(社会人口統計データ、神経心理学的または医学的尺度-精神的または身体的機能、うつ/不安レベル、症状チェックリストなど)で収集された多くのデータがある研究の場合、私はそのような状況に直面します)。EDAは、追加の質問/仮説に変換されるいくつかの予期しない関係(「予期しない」ことは初期分析計画に含まれていなかったことを意味します)を強調するのに役立ちます。 過剰適合の場合と同様に、データのedや索は一般化しない結果につながります。ただし、大量のデータが利用可能な場合、限られた仮説セットを仮定することは非常に困難です(研究者または医師にとって)。 小サンプル研究の場合、EDAの輪郭を描くのに役立つ、よく知られた方法、推奨事項、または経験則があるかどうかを知りたいです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.