H0が既に拒否されている場合、t検定パワーが比較的小さいことを気にする必要がありますか?


8

2つの非常に小さなサンプル(それぞれ)があり、それらの2つのサンプルのt検定検出力は0.49です。これは比較的小さい(Rで計算)。ただし、ウェルチ2標本のt検定ではp値が0.032であるため、帰無仮説を棄却できます。0.032n=7power.t.test()0.032

さて、私は力が小さいことを気にする必要がありますか?

私の理解は、power = 1βここで、βはタイプIIエラーの確率です。ここで、それは私のテストがH0を拒否する必要がある場合の約50%でH0を拒否できないことを意味するので、特定のサンプルがH0を拒否できない場合は特に心配する必要があります。しかし、私の特定のサンプルの場合、私は幸運であるように見え、私のいくらかパワーが不足しているt検定は拒否に成功したので、ベータについて気にする必要はなく、サンプルで大きな違いを示すことができるのを楽しむことができます手段。

私の解釈は正しいですか?それとも、何か重要なことを見逃していますか?


2
検出力は、実験を計画する前に計算して、特定の大きさの違いを検出するために必要な実験のスケールを選択する必要があります。後で計算するのはあまり良いことではありません。
EdM、2015年

2つの理由のいずれかで拒否します。nullがfalseであるか、タイプIエラーが発生しました。nullが実際にtrueになる可能性がある場合、パワーが低いほど、タイプIエラーが実際に発生する可能性が高くなります。ただし、観察された効果サイズに基づいてパワーを計算している場合は、注意してください。期待どおりに動作しません。
Glen_b-2017

回答:


5

狭い意味では、あなたは正しいです。パワーは、誤った帰無仮説を正しく拒否するチャンスです。そのため、チャンスはわずかでしたが、とにかくそれを行うことができました。

ただし、ベイズの信念の更新の観点から、「パワーの削減は、統計的に有意な結果の観察から保証される信念シフトの削減を意味します(McClelland et al。2015)」。このように考えてください。もし私が一般市民から3万人を調査したと言った場合、売上高とは対照的に、人々はコーラよりもペプシを好む傾向があり、それは非常に説得力があるでしょう。人口の1%(つまり、米国の一般市民)を調査した結果、結果がわかりました。それはより大きな人口に一般化する可能性があります。7人を調査して同じことを見つけたら、たとえ統計的に有意であったとしても、誰も納得させないでしょう。その理由はたくさんありますが(代表的なサンプルが得られない、分散分析/回帰の仮定が満たされないなど)、しかし s重要なことは、高出力は非常に説得力があることを意味します(そして、説得しようとしている結果と同じくらい重要な、またはより多くの結果でなければなりません)。ベイジアン数学と詳細な説明については、次のいずれかをチェックしてください。

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

また、Ioannidis(2005)は、多くの場合、低消費電力に起因するいくつかのも、p型ハッキングの不存在下でタイプIエラーを反映した低消費電力の結果に説得力の引数およびその他のバイアスを提供(および論文は、あなたがのために仕事をしません場合はオープンアクセスであります大学またはそれに類似したもの!)


回答ありがとうございます!私は間違いなくMcClellandとIoannidisをチェックします(これは非常に人気のある論文であることを知っています)。ペプシコーク調査の例は間違いなく理にかなっているので、私は自分の状況と平行して描こうとしているだけです。私のサンプルは、比較対象の2か月で7年間に渡って、特定の観察対象集団における統合失調症患者の再発数に関連しています(たとえば、1月と7月)。したがって、より多くの人にアプローチするなど、実験プロトコルを改善する機会はありません。自分が持っているデータから、もう何か言えるのかと思っていたところです。
jrx1301 2015年

1
間違いなくできます。問題は統計ではなく解釈にあります。一部の人々はあなたの結果を取り、「私は統合失調症を解決しました!」と結論します。または劇的に「私は重要な結果を持っているので、私の理論は真実であり、すべての人に適用されます!」あなたはおそらく理論を裏付ける証拠を持っていますが、それがどれほど一般化できるかが問題になるかもしれません。実際にサンプリングした実際の母集団、たとえば「統合失調症患者」の母集団から実際にサンプリングしたのではなく、より小さな部分母集団からサンプリングしたものを検討してください。より大きなpop'nに一般化するには、追加の統計的引数が必要です。
le_andrew

n = 30,000人を調査したが、ペプシ/コーラの差で(OPのように)p = 0.032しか得られなかった場合、少数の人だけで同じp値を取得するよりもこれが説得力がある理由がわかりません。n = 30,000の意味のある効果サイズは、小さなp値を生成するはずなので、p = 0.032は、私が特に信頼したくない微視的な効果サイズを示唆しています。
amoeba 2017年

あなたは「力は誤った帰無仮説を正しく拒否するチャンスである」と述べていますが、これは正しいことです。そして、あなたは'' ...あなたは小さなチャンスがあったが、とにかくそれをすることができた '' と続けます、そして、後者については、部分 ''偽の帰無仮説 ''が欠落しているので、私は疑いがあります。電源は拒絶する確率であるとき虚偽であり、あなたの文の2番目の部分は唯一の拒絶に関連。H 0 H 0H0H0H0

2

電力分析がどのように行われたかによって異なります。一般的に言えば、4つの変数(アルファ、パワー、エフェクトサイズ、)の間には関係があるため、3つを規定すると4番目の変数を解くことができます。 N

通常、人々はデータを分析した後に電力分析を実行すると、事後電力分析(したがって、名前)を実行します。つまり、アルファの値、観測された効果サイズ、およびをプラグインして電力を解決します。 。あなたは確かにそのようにする必要はありません(理論的に提案された効果サイズとあなたが知っているあなたが事前にそれを行うことができます)、あなたがそうするならば、結果はほとんど無視されます。具体的には、結果が有意である場合、検出力はになり、結果が有意でない場合、検出力はます。 N > 50 < 50 NN>50%<50%

それはあなたが見つけたものとはかなり違うようです。1つの可能性は、テストで使用される方法と電力分析で使用される方法との間に微妙な不一致があることです。これは、観測された値が近く、計算された検出力が線の異なる側にあっても近いという事実によって示唆されます。別の可能性は、あなたが見つけたものとは少し異なるエフェクトサイズを使用したことです。 .05 50 p.0550%

それで、「力が小さいことを気にする必要がありますか?」はいといいえ。従来の(無効な)事後電力分析を行った場合、必然的にそのような値を取得することになります—演習はまったく有益ではありませんでした。一方、電力分析を真剣に考えた場合、低電力設定での大きな影響は、基本的に、観測された影響が実際よりも大きくなるようにバイアスをかける必要があることを意味します。そのため、結果に対する信頼は低くなります。


素晴らしいポスト!あなたが知らない場合に備えて。ここにあなたの前の回答の1にポストフォローアップがあるstats.stackexchange.com/questions/309745/...
A少しも興味

-1

意味(確率変数として)テストの-valueといくつかの修正。場合、検定結果を有意または陽性と呼びます。我々は持っている。さらに、をます。次に、はテストの力です。ppαpαP(pα|H0)αβP(p>α|H1)β1β

とを(相補的な)イベントとして扱うと、ベイズの定理は次のようになります: これは、のポストオッズが以前のオッズのスケーリングされたバージョンであり、強度が以下のための有利なスケーリングのと増加。これは、が大きい場合の陽性テストからより多くを学ぶことを意味します。H0H1 H1H11-β1-β

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

詳細については、信頼区間(CI)を参照してください。大きいサンプルサイズはCIをより狭くするため、テストが小さいサンプルで有意である場合、大きいサンプルでも有意であると主張できます。ただし、サンプルにさらに多くのデータを含めると、CIの場所がシフトし、結果が重要でなくなる可能性があります。また、サンプルが大きいほど標準誤差が大きくなり、実際にCIが広くなることも考えられます。サンプルサイズが大きいほど、事実を証明する機会が増えると言えます。

最近、値の解釈についていくつかの興味深い議論がありました。p

[1] Colquhoun、「誤った発見率とp値の誤解の調査」、Royal Society Open Science、2014年

[2] Colquhoun、「研究の再現性とP値の誤解」、2017年、http: //www.biorxiv.org/content/early/2017/08/07/144337

[3]「コーエンは何と言いますか?に関するコメント」、https: 005 /p<.005

あなたの特定の結果に関して、私はそれを判断する資格がありません。値と[2]からの分類のみを使用すると、「弱い証拠:もう一見の価値がある」と「実際の効果に対する中程度の証拠」の間になります。p

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.