効果サイズは本当にp値より優れていますか?


14

応用研究におけるp値ではなく、効果の大きさに依存して報告することに多くの重点が置かれています(例えば、以下の引用)。

しかし、p値のような効果サイズランダム変数であり、同じ実験を繰り返したときにサンプルごとに異なる可能があるということはありませんか?言い換えれば、どの統計的特徴(たとえば、p値よりもサンプルごとの効果サイズの変動が少ないか)が、p値よりも効果サイズの証拠測定指標を良くするかどうかを尋ねています。

ただし、p値とエフェクトサイズを分離する重要な事実に言及する必要があります。つまり、母集団パラメーターがあるため効果の大きさは推定されますが、母集団パラメーターがないためp値は推定されません。

私にとって、効果の大きさは、特定の研究分野(人間の研究など)で、さまざまな研究者が開発した測定ツールから得られた経験的知見を共通のメトリックに変換するのに役立つ指標です定量研究クラブ)。

たぶん、効果の大きさとして単純な割合をとると、次の(Rの)がp値に対する効果の大きさの優位性を示すものでしょうか?(p値は変更されますが、効果サイズは変更されません)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

ほとんどの効果のサイズは、検定統計量と直線的に関連していることに注意してください。したがって、効果サイズを使用して帰無仮説のテストを行うのは簡単なステップです。

たとえば、プレポストデザインから得られたt統計は、対応するCohenのd効果サイズに簡単に変換できます。そのため、Cohenのdの分布は、at分布のスケール位置バージョンにすぎません。

引用符:

p値は混同されたインデックスであるため、理論上、さまざまなサンプルサイズと100の異なる効果サイズを持つ100の研究はそれぞれ同じ単一のp値を持つことができ、同じ単一の効果サイズを持つ100の研究はそれぞれp値に対して100の異なる値を持つことができます。

または

p値は、サンプルごとに異なるランダム変数です。。。。したがって、2つの異なる実験、または同じ実験で測定された2つの変数のテストからp値を比較し、一方が他方よりも重要であることを宣言することは適切ではありませんか?

引用:

トンプソン、B。(2006)。行動統計の基礎:洞察に基づくアプローチ。ニューヨーク、ニューヨーク:ギルフォードプレス。

グッド、PI、ハーディン、JW(2003)。統計の一般的なエラー(およびそれらを回避する方法)。ニューヨーク:ワイリー。


12
引用から同じ結論を導き出しません(効果の大きさは「優れている」、またはp値の代わりに報告する必要がある)。私は一部の人々がそのような声明を出すことによって過剰に反応していることを知っています(p値のBASP禁止など)。これは、他の状況ではありません。p値と効果のサイズがさまざまな種類の有用な情報を提供することを指摘する場合です。通常、一方を他方のコンテキストで考慮することなく検査するべきではありません。
whuber

1
個人的には、信頼区間とともに推定値を報告するだけで十分だと思います。効果の大きさ(実用的意義)と仮説検定(統計的意義)を同時に示します。
Jirapat Samranvedhya

1
p値または効果サイズが「優れている」かどうかは、視点によって異なります。前者は漁師のNHSTの伝統に、後者はネイマンピアソンの伝統に基づいています。いくつかの分野(生物科学、人文科学)では、効果の大きさが非常に小さくなり、p値が魅力的になります。他の人が注意して逆に、p値は増加N.のようなデザインの変化を通じて、小さな「強制」することができます
ハイツ

3
ドライバーはハンマーより優れていますか?
kjetil bハルヴォルセン

ナットはボルトより優れていますか?
セクストゥスエンピリカス

回答:


21

P値ではなく効果サイズを提供するためのアドバイスは、誤った二分法に基づいており、ばかげています。なぜ両方を提示しないのですか?

科学的な結論は、利用可能な証拠と理論の合理的な評価に基づいている必要があります。P値と観測された効果の大きさだけでは不十分です。

あなたが提供する引用されたパッセージのどちらも役に立たない。もちろん、P値は実験ごとに異なります。データの証拠の強さは実験ごとに異なります。P値は、統計モデルによるその証拠の単なる数値抽出です。P値の性質を考えると、あるP値を別のP値と比較することは分析目的にほとんど関係がないため、おそらく引用著者が伝えようとしていることです。

P値を比較したい場合は、関心のある質問に賢明に回答するために、データの異なる配置で有意性テストを実行する必要があります。これらの質問を参照してください: p値のp値?そして 1つのグループの平均がゼロと異なるが、他のグループとは異なる場合、グループが異なると結論付けることができますか?

したがって、あなたの質問への答えは複雑です。P値または効果サイズのいずれかに基づいたデータに対する二分反応が有用であるとは思わないので、効果サイズはP値より優れていますか?はい、いいえ、時々、多分、それはあなたの目的に依存します。


アナリストが目前の研究にとって意味のある効果の大きさを正確に述べることができれば、効果の大きさとその信頼区間を提示することが望ましいと思います。信頼区間は、p値と異なり、読者に推定の精度とその極値の両方の感覚を与えます。
AdamO

1
@AdamOはい、大体同意しますが、P値には2つの項目があり、省略しないでください。これは、nullに対する証拠の強さの指標であり、非常に経験豊富な目でしか信頼区間から得られないものであり、正確なP値は、信頼区間が内/外の二分法を直接招かない。もちろん、尤度関数は両方より優れています。
マイケルルー-モニカの復活

14

応用研究の文脈において、読者が調査結果の実際的な重要性(統計的重要性とは対照的に)を解釈するためには、効果の大きさが必要です。一般に、p値は効果サイズよりもサンプルサイズにはるかに敏感です。実験で効果サイズを正確に測定する場合(つまり、推定する母集団パラメーターに十分近い)、有意でないp値が得られる場合、すべてが等しい場合、サンプルサイズを増やすと同じ効果サイズになりますが、より低いp値。これは、電力解析またはシミュレーションで実証できます。

これに照らして、実用的な意味を持たない効果サイズの非常に重要なp値を達成することができます。対照的に、低消費電力の研究デザインでは、実用的に非常に重要な効果サイズの有意でないp値を生成できます。

特定の実際のアプリケーションなしで、効果の大きさに対して統計的有意性の概念を議論することは困難です。例として、学生の成績平均点(GPA)に対する新しい学習方法の効果を評価する実験を考えます。0.01グレードポイントの効果サイズは、実用的な意味はほとんどないと主張します(つまり、2.51と比較して2.50)。治療グループと対照グループの両方で2,000人の学生のサンプルサイズ、および0.5グレードポイントの母集団標準偏差を仮定します。

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

治療 サンプル 平均 = 2.51

対照 サンプル 平均 = 2.50

効果サイズ= 2.51-2.50 = 0.01

p = 0.53

サンプルサイズを20,000人の学生に増やし、他のすべてを一定に保持すると、有意なp値が得られます。

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

治療 サンプルの 平均 = 2.51

対照 サンプルの 平均 = 2.50

効果サイズ= 2.51-2.50 = 0.01

p = 0.044

明らかに、サンプルサイズを1桁増やすことは簡単なことではありません。しかし、この研究方法によってもたらされる実際的な改善はごくわずかであることに全員が同意できると思います。p値のみに依存している場合、n = 20,000の場合はそうではないと考えるかもしれません。

個人的には、p値と効果サイズの両方を報告することを推奨しています。また、t統計またはF統計、自由度、モデル診断のボーナスポイント!


2
ダレン、RまたはPOのようなものであなたが正確に何を意味するかを示してください。
user138773

7
@Darrent James p = 0.05は尊重されるべき明るい線であるという不幸な仮定を超えて、p = 0.065とp = 0.043の違いに実際的な重要性はありません。どちらのP値も、それ自体では何かに対する説得力のある証拠を表すものではありません。
マイケルルー-モニカを

@Michael Lewはい、同意します!
ダレンジェームズ

1
あなたのコードと説明を与えられたジェームズは、あなたはOPのポイントを完全に誤解しているようです。Rコードも間違っています!sが等しいvar.equal = TRUE間はNOtを設定しているからですsd。このような背景から、なぜこのような応答を投稿したのかわかりません。OPは、少なくとも現時点では簡単な答えがない質問をしています!
user138773

1
コードにvar.equal = TRUEを追加しました。ただし、この場合は不要です。var.equal = TRUEとデフォルトのvar.equal = FALSEの両方で同じp値が取得されます。
ダレンジェームズ

5

現在、データサイエンスの分野で働いており、それ以前は教育研究で働いていました。各「キャリア」では、統計学の正式なバックグラウンドから来ていない人々と協力してきましたが、統計的(および実用的)な重要性がp値に重きを置いています。統計的有意性と実際的有意性には違いがあるため、分析に効果の大きさを含めて強調しました。

一般に、私が一緒に働いていた人たちは、「私たちのプログラム/機能は影響を及ぼしますか、はいですか、それとも影響しますか」ということを気にしました。このような質問に対しては、t検定のような簡単なことをして、「はい、あなたのプログラム/機能が違いを生む」と報告することができます。しかし、この「違い」はどれくらい大きいか小さいのでしょうか?

まず、このトピックの詳細を説明する前に、エフェクトサイズについて説明するときに参照する内容を要約します。

効果サイズは、2つのグループ間の差のサイズを単純に定量化する方法です。[...]いくつかの比較と比較して、特定の介入の有効性を定量化するのに特に役立ちます。これにより、単純な「動作するかしないか」を超えて移動することができますはるかに洗練された「さまざまなコンテキストでどれだけうまく機能しますか?」さらに、介入の最も重要な側面である効果のサイズに重点を置くことにより、その統計的有意性(効果のサイズとサンプルのサイズを制限する)ではなく、知識の蓄積に対するより科学的なアプローチを促進します。これらの理由から、効果の大きさは有効性の報告と解釈において重要なツールです。

効果のサイズ、愚かな:効果のサイズと重要な理由

α

なぜP値が十分でないのですか?

統計的有意性とは、観測された2つのグループ間の差異が偶然によるものである確率です。場合Pの値が選択されたアルファレベル(例えば、0.05)よりも大きい場合、任意の観察された差は、変動をサンプリングすることによって説明されているものとします。十分に大きいサンプルでは、​​統計テストはほとんど何も効果がない場合、つまり効果サイズが正確にゼロである場合を除き、ほとんど常に有意差を示します。ただし、たとえわずかであっても、わずかな違いは意味がありません。したがって、分析のために有意なP値のみを報告するだけでは、読者が結果を完全に理解するには不十分です。

そして、大規模なサンプルサイズに関する@DarrenJamesのコメントを裏付ける

たとえば、サンプルサイズが10000である場合、グループ間の結果の差が無視できるほどであり、別のコストまたは時間のかかる介入を正当化できない場合でも、有意なP値が見つかる可能性があります。有意性のレベル自体は、効果の大きさを予測しません。有意性検定とは異なり、効果のサイズはサンプルサイズに依存しません。一方、統計的有意性は、サンプルサイズと効果サイズの両方に依存します。このため、P値はサンプルサイズに依存するため、混乱していると見なされます。統計的に有意な結果は、巨大なサンプルサイズが使用されたことだけを意味する場合があります。[この振る舞いは帰無仮説に対するバイアスを表しているという誤った見方があります。なぜ頻繁な仮説検定は、十分に大きいサンプルで帰無仮説を拒否するように偏るのですか?]

効果サイズの使用-またはP値が十分でない理由

P値と効果サイズの両方を報告する

質問に答えるために、効果の大きさはp値よりも優れていますか?私は、これらはそれぞれ、そのような用語では比較できない統計分析の重要な要素として機能し、一緒に報告されるべきだと主張します。p値は、(ヌル分布との差)統計的有意性を示す統計、単語に効果サイズプットがあるどのくらいの差があります。

一例として、統計にあまり馴染みのないスーパーバイザーであるボブは、wt(重量)とmpg(ガロンあたりのマイル数)の間に有意な関係があるかどうかに興味があるとします。仮説から分析を開始します

H0βmpg=0 対 HAβmpg0

でテスト中α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0

したがって、結果は統計的に有意であると結論付けることができ、実用的な意味でその有意性を伝えることができました。

これがあなたの質問に答えるのに役立つことを願っています。


ジョン、ありがとう、もっと多くのことを聞きたいと思っていたが、そうではなかった灰色の領域がたくさんあります。多くの場合、効果のサイズとp値は一致しません。そのような状況で多くの信頼効果のサイズは、私が理由を知りたかった。重要なポイントを示すことができるシミュレーションについてもっと知りたいと思っていました。あなたが提起した問題に関して、すなわち、そのエフェクトサイズは小さいかもしれませんが、正確にゼロではありません。等価テストの方法は、数年前から導入されています。ベイジアン等価性テストがさらに好きです。とにかく、私はおそらく十分に明確に私の質問をしなかったでしょう。-ありがとう
-rnorouzian

ところで、同僚は、DarenのRコードが間違っているとコメントしました。それは正しいようです。彼は入れていないvar.equal = TRUE
-rnorouzian

*多くの場合、エフェクトのサイズとp値は一致しません。*-これについての詳細情報を提供できますか?例?あなたが提起した問題に関して、すなわち、その効果サイズは小さいかもしれませんが、正確にゼロではないかもしれません -この状況は大きなサンプルサイズをもたらす可能性があります。したがって、エフェクトサイズがほぼゼロの場合、対象の変数が結果に大きな影響を与えないか、関係が正しく指定されていない可能性があります(たとえば、線形と非線形)。
ジョン

このツールを試してください。このドキュメントも参照してください。わかりやすくするために、後でコードを使用して別の質問をする必要があるようです。 - ありがとうございました。
-rnorouzian

@rnorouzian、わかりました、あなたのコードを実行しました。あなたのポイントは何ですか?
ジョン

4

p値に関連する効果サイズの有用性(およびその他の統計的推定の指標)は、私の分野(心理学)で日常的に議論されており、現在、あなたの質問に関連する理由により、議論は通常よりも「より熱く」なっています。そして、心理学は必ずしも最も統計的に洗練された科学分野ではないと確信していますが、統計推論へのさまざまなアプローチの制限、または少なくともそれらが人間の使用によってどのように制限されるかについて、心理学は容易に議論され、研究され、時には実証されました。既に投稿された回答には優れた洞察が含まれていますが、それぞれの理由と反対の理由のより広範なリスト(および参照)に興味がある場合は、以下を参照してください。

なぜp値が望ましくないのですか?

  • ダレンジェームズが指摘しているように(そして彼のシミュレーションが示すように)、p値は主にあなたが持っている観測の数に依存します。(Kirk、2003を参照)
  • Jonが指摘しているように、p値は、帰無仮説が真であるという条件で、データを極端またはより極端に観測する条件付き確率を表します。ほとんどの研究者はむしろ研究仮説および/または帰無仮説の確率を持っているため、p値は研究者が最も関心を持っている確率とは関係ありません(つまり、帰無仮説または研究仮説についてはDienes、2008を参照)
  • p値を使用する多くの人は、それらが意味するもの/意味しないものを理解していません(Schmidt&Hunter、1997)。マイケルルーのGelman and Sternの論文(2006年)への言及は、p値から解釈できる(またはできない)ことに関する研究者の誤解をさらに強調しています。また、 FiveThirtyEightに関する比較的最近の話が示すように、これは事実です。
  • p値は、後続のp値を予測するのには向いていません(Cumming、2008)
  • p値はしばしば誤って報告され(多くの場合、重要性を膨らませます)、誤った報告はデータを共有したくないことと関連しています(Bakker&Wicherts、2011; Nuijten et al。、2016; Wicherts et al。、2011)
  • p値は、分析の柔軟性によって積極的に歪曲される可能性があり(歴史的には)、信頼できない(John et al。、2012; Simmons et al。、2011)
  • 学術システムは科学的正確さよりも統計的有意性を科学者に報いるように見えるため、p値は不均衡に重要です(Fanelli、2010; Nosek et al。、2012; Rosenthal、1979)

効果サイズが望ましいのはなぜですか?

研究者が調査結果を「INTO A COMMON metric」に変換できると言っているので、私はあなたの質問を標準化された効果サイズに特に言及していると解釈していることに注意してください。

  • JonとDarren Jamesが示すように、効果の大きさは、効果の有無を二分して決定するのではなく、観察の数に依存せずに効果の大きさを示します(American Psychological Association 2010; Cumming、2014)。
  • 効果サイズは、メタ分析を可能にし、メタ分析が累積的な知識を促進するため、価値があります(Borenstein et al。、2009; Chan&Arvey、2012)
  • 効果サイズは、アプリオリな電力解析によるサンプルサイズの計画を容易にするのに役立つため、研究におけるリソースの効率的な割り当て(Cohen、1992)

なぜp値が望ましいのですか?

それらはあまり頻繁に支持されませんが、p値には多くの特典があります。いくつかは有名で長年のものですが、他のものは比較的新しいものです。

  • P値は、統計モデルの帰無仮説に対する証拠の強度の便利で馴染みのあるインデックスを提供します。

  • 正しく計算されると、p値は二分決定を行う手段となり(必要な場合もあります)、p値は長期的な誤検出エラー率を許容可能なレベルに保つのに役立ちます(Dienes、2008; Sakaluk、2016)[It二値の決定にはP値が必要であると言うのは厳密には正しくありません。それらは実際にそのように広く使用されていますが、Neyman&Pearsonはその目的のために検定統計空間で「重要な領域」を使用しました。この質問とその回答をご覧ください]

  • p値を使用して、継続的な効率的なサンプルサイズ計画を促進することができます(1回限りの電力分析ではありません)(Lakens、2014)
  • p値は、メタ分析を促進し、証拠価値を評価するために使用できます(Simonsohn et al。、2014a; Simonsohn et al。、2014b)。この方法でp値の分布を使用する方法に関するアクセス可能なディスカッション、および関連するディスカッションのこのCV投稿については、このブログ投稿を参照してください。
  • p値をフォレンジックに使用して、疑わしい研究手法が使用されているかどうか、および再現可能な結果がどのようになっている可能性があるかを判断できます(Schimmack、2014;Schönbrodtのアプリ、2015も参照)

エフェクトサイズが望ましくない(または過大評価される)のはなぜですか?

おそらく、多くの人にとって最も直感に反する立場です。標準化された効果サイズの報告が望ましくない、または少なくとも過大評価されるのはなぜですか?

  • 場合によっては、標準化された効果の大きさは、それらが分解されるだけではありません(例えば、Greenland、Schlesselman、&Criqui、1986)。特に、Baguely(2009)には、未加工/標準化されていないエフェクトサイズが望ましい理由のいくつかが説明されています。
  • 先験的な消費電力分析に有用であるにもかかわらず、効果的なサンプルサイズの効率的な計画を容易にするために効果サイズは実際には確実に使用されません(Maxwell、2004)
  • サンプルサイズの計画で効果サイズが使用されている場合でも、出版バイアス(Rosenthal、1979)によって効果が増大するため、公開された効果サイズは、信頼性の高いサンプルサイズ計画のために疑わしいユーティリティです(Simonsohn、2013)
  • 効果の大きさの推定値は、統計ソフトウェアで体系的に誤って計算される可能性があります(実際にされています)(Levine&Hullet、2002)
  • 効果のサイズが誤って抽出され(おそらく誤報告され)、メタ分析の信頼性が損なわれます(Gøtzscheet al。、2007)
  • 最後に、効果サイズの出版バイアスの修正は依然として効果的ではなく(Carter et al。、2017を参照)、出版バイアスが存在すると思われる場合、メタ分析の影響が少なくなります。

概要

Michael Lewの主張を反映して、p値と効果の大きさは統計的証拠の2つの部分にすぎません。他にも検討に値するものがあります。しかし、p値や効果の大きさのように、他の証拠価値の指標も共通のユニークな問題を抱えています。研究者は一般に、たとえば信頼区間を誤って適用し、誤解します(たとえば、Hoekstra et al。、2014; Morey et al。、2016)。また、ベイズ分析の結果は、p値を使用するとき(たとえばSimonsohn 、2014)。

証拠のすべてのメトリックが勝ち、すべてに賞品が必要です。

参照資料

米国心理学会。(2010)。アメリカ心理学会の出版マニュアル(第6版)。ワシントンDC:アメリカ心理学会。

Baguley、T.(2009)。標準化された、または単純な効果サイズ:何を報告すべきですか?British Journal of Psychology、100(3)、603-617。

Bakker、M。、&Wicherts、JM(2011)。心理学ジャーナルの統計結果の(誤)レポート。行動調査法、43(3)、666-678。

Borenstein、M.、Hedges、LV、Higgins、J。、およびRothstein、HR(2009)。メタ分析の紹介。英国サセックス州:John Wiley&Sons、Ltd.

Carter、EC、Schönbrodt、FD、Gervais、WM、およびHilgard、J.(2017年8月12日)。心理学におけるバイアスの修正:メタ分析法の比較。osf.io/preprints/psyarxiv/9h3nuから取得

Chan、ME、およびArvey、RD(2012)。メタ分析と知識の開発。心理学の展望、7(1)、79-92。

コーエン、J。(1992)。パワー入門。Psychological Bulletin、112(1)、155-159。 

カミング、G。(2008)。レプリケーションとp間隔:p値は、あいまいにしか未来を予測しませんが、信頼区間ははるかに優れています。心理学の展望、3、286–300。

ジエン、D。(2008)。科学としての心理学の理解:科学的および統計的推論の紹介。ニューヨーク、NY:パルグレイブ・マクミラン。

ファネリ、D。(2010)。「ポジティブ」な結果は、科学の階層の下に向かって増加します。PloS one、5(4)、e10068。

ゲルマン、A。、およびスターン、H。(2006)。「有意」と「有意ではない」の違い自体は統計的に有意ではありません。アメリカの統計学者、60(4)、328-331。

Gøtzsche、PC、Hróbjartsson、A.、Marić、K。、およびTendal、B.(2007)。標準化された平均差を使用するメタ分析のデータ抽出エラー。JAMA、298(4)、430-437。

グリーンランド、S。、シュレッセルマン、JJ、およびクリキ、MH(1986)。標準化された回帰係数と相関を効果の尺度として採用することの誤り。American Journal of Epidemiology、123(2)、203-208。

Hoekstra、R.、Morey、RD、Rouder、JN、&Wagenmakers、EJ(2014)。信頼区間のロバストな誤解釈。心理学紀要&レビュー、21(5)、1157-1164。

John、LK、Loewenstein、G。、およびPrelec、D。(2012)。真実を伝えるためのインセンティブを使用して、疑わしい研究慣行の有病率を測定する。PsychologicalSscience、23(5)、524〜532。

カーク、RE(2003)。効果の大きさの重要性。SF Davis(編集)で、実験心理学の研究方法のハンドブック(pp。83–105)。マールデン、マサチューセッツ州:ブラックウェル。

Lakens、D.(2014)。逐次分析により、強力な研究を効率的に実行します。欧州社会心理学ジャーナル、44(7)、701-710。

レバイン、TR、およびハレット、CR(2002)。Etaの2乗、部分イータの2乗、およびコミュニケーション研究における効果サイズの誤報告。ヒューマンコミュニケーションリサーチ、28(4)、612-625。

マクスウェル、SE(2004)。心理学的研究における力不足の研究の持続性:原因、結果、および治療。心理学的方法、9(2)、147。

Morey、RD、Hoekstra、R.、Rouder、JN、Lee、MD、&Wagenmakers、EJ(2016)。信頼区間に信頼を置くという誤り。心理学紀要&レビュー、23(1)、103-123。

Nosek、BA、Spies、JR、Motyl、M。(2012)。科学的ユートピア:II。出版性よりも真実を促進するためのインセンティブと実践の再構築。心理学の展望、7(6)、615-631。

Nuijten、MB、Hartgerink、CH、van Assen、MA、Epskamp、S.、&Wicherts、JM(2016)。心理学における統計報告エラーの有病率(1985–2013)。行動研究方法、48(4)、1205-1226。

ローゼンタール、R。(1979)。ファイルドロワーの問題とnull結果の許容範囲。Psychological Bulletin、86(3)、638-641。

SKaluk、JK(2016)。小さいことを探検し、大きいことを確認する:累積的かつ複製可能な心理学的研究を進めるための新しい統計の代替システム。Journal of Experimental Social Psychology、66、47-54。

スキマック、U。(2014)。統計的研究の完全性の定量化:複製可能性インデックス。http://www.r-index.orgから取得 

フロリダ州シュミット&JEハンター(1997)。研究データの分析における有意性テストの中止に対する8つの一般的だが誤った異議。LL Harlow、SA Mulaik、およびJH Steiger(編)で、有意性テストがなかった場合はどうなりますか?(37〜64ページ)。ニュージャージー州マーワー:エルバウム。

シェーンブロト、FD(2015)。p-checker:1対1のp値アナライザー。http://shinyapps.org/apps/p-checker/から取得。 

シモンズ、JP、ネルソン、LD、およびサイモンソン、U(2011)。偽陽性の心理学:データの収集と分析における開示されていない柔軟性により、重要なものを提示できます。心理学、22(11)、1359-1366。

サイモンソン、U。(2013)。観察されたエフェクトサイズに基づいた複製のパワーアップ。http://datacolada.org/4から取得

サイモンソン、U。(2014)。事後ハッキング。http://datacolada.org/13から取得。

シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014)。Pカーブ:ファイルドロワーのキー。Journal of Experimental Psychology:General、143(2)、534-547。

シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014)。Pカーブと効果サイズ:重要な結果のみを使用して出版バイアスを修正します。心理学の展望、9(6)、666-681。

Wicherts、JM、Bakker、M。、およびMolenaar、D。(2011)。研究データを共有する意欲は、証拠の強さと統計結果の報告の質に関連しています。PloS one、6(11)、e26828。


2
アイデアと参考文献の非常に素晴らしいコレクション。さらに掘り下げたい人には役立つはずですが、このサイトでは多くのポイントに関連する質問と回答があることに注意してください。それらへのリンクも役立ちます。
マイケルルー-モニカの復活

@MichaelLewありがとう。後で時間があれば、いくつかのリンクを追加する方法について説明します。午後の大半をこの応答の草案にし、参考文献をまとめるのに時間がかかりました。あなたの編集に関しては、あなたの論点はうまくいっていると思いますが、修正とは対照的に、おそらくそれ以上の追加ですか?私は、p値が提供すると述べた(彼らは「必要」、またはそうすることが唯一の方法でされていないことを)二分意思決定を行うための手段を。NPの重要な領域は別の方法であることに同意しますが、p値が提供するものと標準化された効果サイズの関係でOPに対応しました。
jsakaluk

1
jsakaluk、はい、あなたは答えに長い時間を費やしていたでしょうが、それは非常に有用であり、あなたの努力に値するものです。P値の利点についてアイテムを編集したのは、「正しく使用すると」それらが二分される可能性があるためです私の意見では)間違った使用。私はあなたの意図を覆したくなかったので、「使用済み」を「計算済み」に変更しました。
マイケルルー-モニカの復活

3

疫学者の観点から、p値よりも効果の大きさを好む理由について(一部の人々が述べているように、それは誤った二分法のようなものです):

  1. 効果の大きさは、私が実際に欲しいものを教えてくれ、p値はnullと区別できるかどうかだけを教えてくれます。1.0001、1.5、5、および50の相対リスクはすべて同じp値を持つ可能性がありますが、人口レベルで何をする必要があるかという点で大きく異なることを意味します。
  2. p値に依存することで、有意性に基づく仮説検定がすべての証拠であるという概念が強化されます。次の2つの声明を検討してください。「患者に微笑む医師は、入院中の有害転帰と有意に関連していませんでした。」vs.「医師に笑顔を見せた患者は、有害な結果になる可能性が50%少なかった(p = 0.086)。」おそらく、費用がまったくかからないので、医師が患者に微笑むよう提案することを検討してください。
  3. サンプルサイズは計算能力と忍耐力の関数であり、p値は本質的に無意味です。臨床的または公衆衛生上の関連性がまったくないものについては、p <0.05の結果を得ることができました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.