先験的な消費電力解析は本質的に役に立たないのですか？

先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。

もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦（特にCohen、1992）に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。

簡単にするために、2つのグループの観測値がある状況を想像して、（標準化された平均差で測定される）効果サイズがと推測します。標準的な電力計算（以下のパッケージを使用して行われます）では、この設計で80％の電力を得るには観測値が必要であることがわかります。 $.5$ Rpwr $128$

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

ただし、通常、予想される効果の大きさについての推測は（少なくとも私の研究分野である社会科学では）まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか？迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70％です。 $.4$ $.5$ $200$ $1.56$ $.5$ $.6$ $90$ $.50$ 。事実上、推定観測の範囲が非常に大きいです-に。 $90$ $200$

この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく（たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります）。

Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるを集計します。 $.5$ $1000$ $N$

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

以下は、このシミュレーションに基づいた密度プロットです。画像をより解釈しやすくするために、を超える数の観測を推奨するパイロットテストのは省略しました。でも、シミュレーションのあまり極端な結果に焦点を当て、中に巨大な変化があるが推奨するのパイロットテストが。 $204$ $500$ $Ns$ $1000$

ここに画像の説明を入力してください

もちろん、仮定の問題に対する感度は、設計が複雑になるにつれて悪化するだけだと確信しています。たとえば、ランダム効果構造の仕様を必要とするデザインでは、ランダム効果構造の性質がデザインの威力に劇的な影響を与えます。

それで、あなたは皆、この議論をどう思いますか？先験的な消費電力解析は本質的に役に立たないのですか？もしそうなら、研究者は研究の規模をどのように計画すべきですか？

— パトリック・S・フォーシャー
ソース

これは、電力分析自体ではなく、無意識の電力分析の非難のように聞こえます。より大きな問題は、これがストローマンに対する攻撃なのか、それとも仮定に対する感度に関係なく力分析（または他の分析）を実施する多くの人々が存在するのかということです。後者が当てはまる場合は、啓発するのは良いことですが、彼らが実験を計画するすべての努力を放棄するほど落胆しないことを願っています！

— whuber

タイトルの質問を表現する際の構文上の類似性だけでなく、かなり多くのstats.stackexchange.com/q/2492/32036を思い出します。仮定を理解する方法の質問のようです。両方の主要なポイントは、（a）絶対的に重要である、または（b）まったく無視できるという全面的またはすべてか無かの判断を下すのではなく、これらの分析の偏りに対する感度を理解することです。これは、一般的に有用で無害な推論の鍵です。ストローマンではないのではないかと心配しています。知らない、または気がつかない、または気にできないとき、人々は絶対に頻繁に考えます。

— ニックスタウナー14

他の人が行った推奨事項に興味があったので、これを質問に追加したくはありませんでしたが、講演の最後にウリ・シモンソン氏が推奨したのは、あなたが関心のある最小の効果を検出するよう研究を強化することでした。

— パトリックS.フォーシャー

@ PatrickS.Forscher：それで、結局のところ、彼は先験的なパワー分析を信じています。彼は、エフェクトのサイズは賢明に選択されるべきだと考えています。それが何であるかを推測するのではなく、あなたが気にする最小値です。電力分析の教科書の説明とほとんど同じように聞こえます。実際に有意な差があると思われるものが統計的に有意な差として現れる十分なデータがあることを確認してください。

— ウェイン14

ウリはこの話の枠組みを作りました。私は、先験的な力分析は社会科学で通常行われているように役に立たないが、おそらく他の場所で教えられているようには役に立たないと考えていると思います。確かに、実際の用語で気にする効果ではなく、探している効果の大きさについての合理的な推測に基づいてパワー分析を行うように教えられました。

— パトリックS.フォーシャー14

ここでの基本的な問題は真実であり、統計ではかなりよく知られています。しかし、彼の解釈/主張は極端です。議論すべきいくつかの問題があります。

$N$ $\sqrt N$ $N$ $50\%$ $80\%$ $d$ $d$ $d = .5$ $N = 128$ $\approx 7.9\%$ $\approx 5.5\%$ $.1$ $\approx 16.9\%$ $.1$ $\approx 12.6\%$

ここに画像の説明を入力してください

$d$

$80\%$

第二に、パワー分析（アプリオリまたはその他）が仮定に依存しているというより広い主張に関して、その議論をどうするかが明確ではありません。もちろんそうです。他のすべても同様です。電力分析を実行するのではなく、帽子から選んだ数値に基づいてデータ量を収集してからデータを分析するだけでは、状況は改善されません。さらに、すべての分析（パワーまたはその他）が常にそうであるように、結果の分析は依然として仮定に依存します。代わりに、好きな写真が撮れるか飽きるまでデータの収集と再分析を続けると決めた場合、それははるかに有効性が低くなります（そして、スピーカーには見えないかもしれない仮定を依然として伴いますが、それにもかかわらず存在する）。簡単に言えば、研究とデータ分析で仮定がなされているという事実を回避する方法はありません。

興味のあるこれらのリソースを見つけることができます。

Kraemer、HC、Mintz、J.、Noda、A.、Tinklenberg、J.、＆Yesavage、JA（2006）。研究提案のための電力計算を案内するパイロット研究の使用に関する注意、一般精神医学、63のアーカイブ、5頁484から489まで。
Uebersax、JA（2007）。ベイジアン無条件電力分析。http://www.john-uebersax.com/stat/bpower.htm

— gung-モニカの回復
ソース

Uri Simonsohnの議論は、仮定自体が悪いということではなかったが、一般にパワー分析は仮定に非常に敏感であるため、サンプルサイズの計画には役に立たない。ただし、あなたが提供した参考文献と同様に、あなたのポイントは優れています（+1）。

— パトリックS.フォーシャー14

編集により、この優れた回答が引き続き改善されます。:)

— パトリックS.フォーシャー14

これは素晴らしい答えであることに同意し、このトピックについて書いた最近のブログ投稿で引用したことをあなた（および他の人）に知らせたかっただけです：jakewestfall.org/blog/index.php/2015/06/ 16 /…

— ジェイクウェストフォール

@JakeWestfall、素敵な投稿！別の注意として、クッキーを勉強するとき、あなたは主にそれらを食べることによってそうしますか？これらのプロジェクトのいずれかで統計コンサルタントが必要ですか？

— GUNG -復活モニカ