p値に関連する効果サイズの有用性(およびその他の統計的推定の指標)は、私の分野(心理学)で日常的に議論されており、現在、あなたの質問に関連する理由により、議論は通常よりも「より熱く」なっています。そして、心理学は必ずしも最も統計的に洗練された科学分野ではないと確信していますが、統計推論へのさまざまなアプローチの制限、または少なくともそれらが人間の使用によってどのように制限されるかについて、心理学は容易に議論され、研究され、時には実証されました。既に投稿された回答には優れた洞察が含まれていますが、それぞれの理由と反対の理由のより広範なリスト(および参照)に興味がある場合は、以下を参照してください。
なぜp値が望ましくないのですか?
- ダレンジェームズが指摘しているように(そして彼のシミュレーションが示すように)、p値は主にあなたが持っている観測の数に依存します。(Kirk、2003を参照)
- Jonが指摘しているように、p値は、帰無仮説が真であるという条件で、データを極端またはより極端に観測する条件付き確率を表します。ほとんどの研究者はむしろ研究仮説および/または帰無仮説の確率を持っているため、p値は研究者が最も関心を持っている確率とは関係ありません(つまり、帰無仮説または研究仮説についてはDienes、2008を参照)
- p値を使用する多くの人は、それらが意味するもの/意味しないものを理解していません(Schmidt&Hunter、1997)。マイケルルーのGelman and Sternの論文(2006年)への言及は、p値から解釈できる(またはできない)ことに関する研究者の誤解をさらに強調しています。また、 FiveThirtyEightに関する比較的最近の話が示すように、これは事実です。
- p値は、後続のp値を予測するのには向いていません(Cumming、2008)
- p値はしばしば誤って報告され(多くの場合、重要性を膨らませます)、誤った報告はデータを共有したくないことと関連しています(Bakker&Wicherts、2011; Nuijten et al。、2016; Wicherts et al。、2011)
- p値は、分析の柔軟性によって積極的に歪曲される可能性があり(歴史的には)、信頼できない(John et al。、2012; Simmons et al。、2011)
- 学術システムは科学的正確さよりも統計的有意性を科学者に報いるように見えるため、p値は不均衡に重要です(Fanelli、2010; Nosek et al。、2012; Rosenthal、1979)
効果サイズが望ましいのはなぜですか?
研究者が調査結果を「INTO A COMMON metric」に変換できると言っているので、私はあなたの質問を標準化された効果サイズに特に言及していると解釈していることに注意してください。
- JonとDarren Jamesが示すように、効果の大きさは、効果の有無を二分して決定するのではなく、観察の数に依存せずに効果の大きさを示します(American Psychological Association 2010; Cumming、2014)。
- 効果サイズは、メタ分析を可能にし、メタ分析が累積的な知識を促進するため、価値があります(Borenstein et al。、2009; Chan&Arvey、2012)
- 効果サイズは、アプリオリな電力解析によるサンプルサイズの計画を容易にするのに役立つため、研究におけるリソースの効率的な割り当て(Cohen、1992)
なぜp値が望ましいのですか?
それらはあまり頻繁に支持されませんが、p値には多くの特典があります。いくつかは有名で長年のものですが、他のものは比較的新しいものです。
P値は、統計モデルの帰無仮説に対する証拠の強度の便利で馴染みのあるインデックスを提供します。
正しく計算されると、p値は二分決定を行う手段となり(必要な場合もあります)、p値は長期的な誤検出エラー率を許容可能なレベルに保つのに役立ちます(Dienes、2008; Sakaluk、2016)[It二値の決定にはP値が必要であると言うのは厳密には正しくありません。それらは実際にそのように広く使用されていますが、Neyman&Pearsonはその目的のために検定統計空間で「重要な領域」を使用しました。この質問とその回答をご覧ください]
- p値を使用して、継続的な効率的なサンプルサイズ計画を促進することができます(1回限りの電力分析ではありません)(Lakens、2014)
- p値は、メタ分析を促進し、証拠価値を評価するために使用できます(Simonsohn et al。、2014a; Simonsohn et al。、2014b)。この方法でp値の分布を使用する方法に関するアクセス可能なディスカッション、および関連するディスカッションのこのCV投稿については、このブログ投稿を参照してください。
- p値をフォレンジックに使用して、疑わしい研究手法が使用されているかどうか、および再現可能な結果がどのようになっている可能性があるかを判断できます(Schimmack、2014;Schönbrodtのアプリ、2015も参照)
エフェクトサイズが望ましくない(または過大評価される)のはなぜですか?
おそらく、多くの人にとって最も直感に反する立場です。標準化された効果サイズの報告が望ましくない、または少なくとも過大評価されるのはなぜですか?
- 場合によっては、標準化された効果の大きさは、それらが分解されるだけではありません(例えば、Greenland、Schlesselman、&Criqui、1986)。特に、Baguely(2009)には、未加工/標準化されていないエフェクトサイズが望ましい理由のいくつかが説明されています。
- 先験的な消費電力分析に有用であるにもかかわらず、効果的なサンプルサイズの効率的な計画を容易にするために、効果サイズは実際には確実に使用されません(Maxwell、2004)
- サンプルサイズの計画で効果サイズが使用されている場合でも、出版バイアス(Rosenthal、1979)によって効果が増大するため、公開された効果サイズは、信頼性の高いサンプルサイズ計画のために疑わしいユーティリティです(Simonsohn、2013)
- 効果の大きさの推定値は、統計ソフトウェアで体系的に誤って計算される可能性があります(実際にされています)(Levine&Hullet、2002)
- 効果のサイズが誤って抽出され(おそらく誤報告され)、メタ分析の信頼性が損なわれます(Gøtzscheet al。、2007)
- 最後に、効果サイズの出版バイアスの修正は依然として効果的ではなく(Carter et al。、2017を参照)、出版バイアスが存在すると思われる場合、メタ分析の影響が少なくなります。
概要
Michael Lewの主張を反映して、p値と効果の大きさは統計的証拠の2つの部分にすぎません。他にも検討に値するものがあります。しかし、p値や効果の大きさのように、他の証拠価値の指標も共通のユニークな問題を抱えています。研究者は一般に、たとえば信頼区間を誤って適用し、誤解します(たとえば、Hoekstra et al。、2014; Morey et al。、2016)。また、ベイズ分析の結果は、p値を使用するとき(たとえばSimonsohn 、2014)。
証拠のすべてのメトリックが勝ち、すべてに賞品が必要です。
参照資料
米国心理学会。(2010)。アメリカ心理学会の出版マニュアル(第6版)。ワシントンDC:アメリカ心理学会。
Baguley、T.(2009)。標準化された、または単純な効果サイズ:何を報告すべきですか?British Journal of Psychology、100(3)、603-617。
Bakker、M。、&Wicherts、JM(2011)。心理学ジャーナルの統計結果の(誤)レポート。行動調査法、43(3)、666-678。
Borenstein、M.、Hedges、LV、Higgins、J。、およびRothstein、HR(2009)。メタ分析の紹介。英国サセックス州:John Wiley&Sons、Ltd.
Carter、EC、Schönbrodt、FD、Gervais、WM、およびHilgard、J.(2017年8月12日)。心理学におけるバイアスの修正:メタ分析法の比較。osf.io/preprints/psyarxiv/9h3nuから取得
Chan、ME、およびArvey、RD(2012)。メタ分析と知識の開発。心理学の展望、7(1)、79-92。
コーエン、J。(1992)。パワー入門。Psychological Bulletin、112(1)、155-159。
カミング、G。(2008)。レプリケーションとp間隔:p値は、あいまいにしか未来を予測しませんが、信頼区間ははるかに優れています。心理学の展望、3、286–300。
ジエン、D。(2008)。科学としての心理学の理解:科学的および統計的推論の紹介。ニューヨーク、NY:パルグレイブ・マクミラン。
ファネリ、D。(2010)。「ポジティブ」な結果は、科学の階層の下に向かって増加します。PloS one、5(4)、e10068。
ゲルマン、A。、およびスターン、H。(2006)。「有意」と「有意ではない」の違い自体は統計的に有意ではありません。アメリカの統計学者、60(4)、328-331。
Gøtzsche、PC、Hróbjartsson、A.、Marić、K。、およびTendal、B.(2007)。標準化された平均差を使用するメタ分析のデータ抽出エラー。JAMA、298(4)、430-437。
グリーンランド、S。、シュレッセルマン、JJ、およびクリキ、MH(1986)。標準化された回帰係数と相関を効果の尺度として採用することの誤り。American Journal of Epidemiology、123(2)、203-208。
Hoekstra、R.、Morey、RD、Rouder、JN、&Wagenmakers、EJ(2014)。信頼区間のロバストな誤解釈。心理学紀要&レビュー、21(5)、1157-1164。
John、LK、Loewenstein、G。、およびPrelec、D。(2012)。真実を伝えるためのインセンティブを使用して、疑わしい研究慣行の有病率を測定する。PsychologicalSscience、23(5)、524〜532。
カーク、RE(2003)。効果の大きさの重要性。SF Davis(編集)で、実験心理学の研究方法のハンドブック(pp。83–105)。マールデン、マサチューセッツ州:ブラックウェル。
Lakens、D.(2014)。逐次分析により、強力な研究を効率的に実行します。欧州社会心理学ジャーナル、44(7)、701-710。
レバイン、TR、およびハレット、CR(2002)。Etaの2乗、部分イータの2乗、およびコミュニケーション研究における効果サイズの誤報告。ヒューマンコミュニケーションリサーチ、28(4)、612-625。
マクスウェル、SE(2004)。心理学的研究における力不足の研究の持続性:原因、結果、および治療。心理学的方法、9(2)、147。
Morey、RD、Hoekstra、R.、Rouder、JN、Lee、MD、&Wagenmakers、EJ(2016)。信頼区間に信頼を置くという誤り。心理学紀要&レビュー、23(1)、103-123。
Nosek、BA、Spies、JR、Motyl、M。(2012)。科学的ユートピア:II。出版性よりも真実を促進するためのインセンティブと実践の再構築。心理学の展望、7(6)、615-631。
Nuijten、MB、Hartgerink、CH、van Assen、MA、Epskamp、S.、&Wicherts、JM(2016)。心理学における統計報告エラーの有病率(1985–2013)。行動研究方法、48(4)、1205-1226。
ローゼンタール、R。(1979)。ファイルドロワーの問題とnull結果の許容範囲。Psychological Bulletin、86(3)、638-641。
SKaluk、JK(2016)。小さいことを探検し、大きいことを確認する:累積的かつ複製可能な心理学的研究を進めるための新しい統計の代替システム。Journal of Experimental Social Psychology、66、47-54。
スキマック、U。(2014)。統計的研究の完全性の定量化:複製可能性インデックス。http://www.r-index.orgから取得
フロリダ州シュミット&JEハンター(1997)。研究データの分析における有意性テストの中止に対する8つの一般的だが誤った異議。LL Harlow、SA Mulaik、およびJH Steiger(編)で、有意性テストがなかった場合はどうなりますか?(37〜64ページ)。ニュージャージー州マーワー:エルバウム。
シェーンブロト、FD(2015)。p-checker:1対1のp値アナライザー。http://shinyapps.org/apps/p-checker/から取得。
シモンズ、JP、ネルソン、LD、およびサイモンソン、U(2011)。偽陽性の心理学:データの収集と分析における開示されていない柔軟性により、重要なものを提示できます。心理学、22(11)、1359-1366。
サイモンソン、U。(2013)。観察されたエフェクトサイズに基づいた複製のパワーアップ。http://datacolada.org/4から取得
サイモンソン、U。(2014)。事後ハッキング。http://datacolada.org/13から取得。
シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014)。Pカーブ:ファイルドロワーのキー。Journal of Experimental Psychology:General、143(2)、534-547。
シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014)。Pカーブと効果サイズ:重要な結果のみを使用して出版バイアスを修正します。心理学の展望、9(6)、666-681。
Wicherts、JM、Bakker、M。、およびMolenaar、D。(2011)。研究データを共有する意欲は、証拠の強さと統計結果の報告の質に関連しています。PloS one、6(11)、e26828。