タグ付けされた質問 「replicability」

4
Cumming(2008)は、複製で得られたp値の分布は元のp値にのみ依存すると主張しています。どうしてそれが本当ですか?
私はGeoff Cummingの2008年の論文Replication and Intervalsをpppppp p p読んでいます:値は漠然と未来を予測しますが、信頼区間ははるかに優れています[Google Scholarでの200回の引用] -そしてその中心的な主張の1つに混乱しています。これは、カミングが値に反対し、信頼区間を支持する一連の論文の1つです。しかし、私の質問はこの議論に関するものではなく、値に関する特定の主張にのみ関係します。pppppp 要約から引用させてください: この記事は、最初の実験の結果が両側である場合、複製からの 片側値が間隔に可能性があることを示しています。確率その、完全に確率その。注目すべきことに、間隔(間隔と呼ばれる)は、サンプルサイズが大きくてもこの幅です。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp カミングは、この「間隔」、および実際に元の実験(同じ固定サンプルサイズ)を複製するときに取得する値の全体分布は、元の値のみに依存するとそして、真のエフェクトサイズ、パワー、サンプルサイズなどに依存しません。pppp p o b tpppppppobtpobtp_\mathrm{obt} [...]の確率分布は、(またはpower)の値を知らない、または仮定せずに導出できます。[...]についての事前知識を前提とせず、 [グループ間差異の観測]がについて与える情報のみを、特定の計算の基礎として使用します。および間隔の分布の 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 私はこれに混乱しています。なぜなら、値の分布はパワーに強く依存しているように見えますが、元の自体はそれに関する情報を何も与えていないからです。真の効果サイズはあり、分布は均一である可能性があります。または、本当の効果のサイズが巨大である場合、ほとんどの場合、非常に小さい値を期待する必要があります。もちろん、可能性のある効果の大きさよりも事前にいくつかを仮定して開始することができますが、カミングはこれが彼がやっていることではないと主張しているようです。P O のB T δ = 0 Pppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 質問:ここで何が起こっているのでしょうか? このトピックはこの質問に関連していることに注意してください。最初の実験の95%信頼区間内で、繰り返し実験のどの部分が効果サイズを持ちますか?@whuberによる優れた答えがあります。Cummingには、このトピックに関する次のような論文があります:Cumming&Maillardet、2006、Confidence Intervals and Replication:Where the Next Mean Fall?-しかし、それは明確で問題ありません。 私もカミングの請求が2015年の自然法論文で数回繰り返されることに注意してください気まぐれ値は再現不可能な結果を生成し、PPPあなた方のうちの何人かは全体来ているかもしれない(それは既にGoogle Scholarの中で〜100の引用を持っています): [...] 繰り返される実験の値にはかなりのばらつきがあります。実際には、実験はめったに繰り返されません。次のがどの程度異なるかはわかりません。しかし、非常に異なる可能性があります。単一の複製が返された場合、例えば、にかかわらず、実験の統計的検出力の、値、存在する反復実験が戻ってくる可能性間の値をと(及び変化が[原文のまま]はさらに大きくなります)。P P 0.05 80 …

2
最初の実験の95%信頼区間内で、どのサイズの反復実験が効果サイズを持ちますか?
ランダムサンプリング、ガウス母集団、等分散、Pハッキングなしなどの理想的な状況に固執しましょう。 ステップ1. 2つの標本平均を比較するという実験を実行し、2つの母平均間の差について95%の信頼区間を計算します。 ステップ2.さらに多くの実験(数千)を実行します。平均の違いは、ランダムサンプリングのため、実験ごとに異なります。 質問:ステップ1の信頼区間内にあるのは、ステップ2の実験のコレクションの平均の差のどの部分ですか? それは答えられません。それはすべて、ステップ1で起こったことに依存します。ステップ1の実験が非常に非定型である場合、質問に対する答えは非常に低い可能性があります。 したがって、両方のステップが何度も繰り返されることを想像してください(ステップ2がさらに何度も繰り返される)。これで、平均して、繰り返し実験のどの部分が最初の実験の95%信頼区間内に効果サイズを持っているかについての期待を考え出すことができるはずです。 研究の再現性を評価するためには、これらの質問に対する答えを理解する必要があるようです。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
多くのメタ分析の結果を組み合わせた後の神経科学における低出力の意味(Button et al 2013)
Nature Neuroscienceの2013年のレビュー記事で、Button et al。停電:小さなサンプルサイズは、神経科学の信頼性を損なう理由は、それがあると述べました。 神経科学の研究の平均統計力は非常に低い 彼らはメタ分析を検索し、それぞれのポストホックパワーを計算し、中央値のポストホックパワーを取ることによって結果を組み合わせました。中央値は20%でした。わかりません。事後電力は、常に本質的に達成されたp値に関連付けられています。中央値のp値が〜0.3のようなもので、ポストホックパワーが20%であることを記述するのと同じではないでしょうか。 では、基本的に、この結果はどのように神経科学の研究の質を損なうのでしょうか?彼らは多くの有意でないp値を用いた研究を発表しているようです。 このレビューは非常に有名な著者によるNature Neuroscienceの研究なので、私の解釈には欠陥がある可能性が高いと思います。 編集:名目上の有意性のある研究のみが含まれているとしたら、ある点がわかるでしょう。その場合、中央値パワーは、重要な発見の中央値複製確率を示します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.