心理学誌は、p値と信頼区間を禁止しました。それらの使用をやめるのは本当に賢明ですか?


73

2015年2月25日に、ジャーナルBasic and Applied Social Psychology は、将来のすべての論文から値と信頼区間を禁止する社説発行しましたp

具体的には、彼らは言う(フォーマットと強調は私のものです):

  • [...]出版前に、著者はNHSTPのすべての痕跡を削除する必要があります[null仮説の有意性検定手順](値、値、値、「有意な」差異またはその欠如に関する記述、 等々)。ptF

  • NHSTPが棄却の強力なケースを提供するために必要な帰無仮説の確率の提供に失敗する方法と同様に、信頼区間は対象の母集団パラメーターが指定された範囲内にあると結論付けるための強力なケースを提供しません間隔。したがって、信頼区間もBASPから禁止されています。

  • [...]ベイジアンの手順に関して、私たちはケースバイケースの判断を行う権利を留保します。したがって、ベイジアンの手順はBASPに必要でも禁止でもありません。

  • [...]推論統計手順は必要ですか?- いいえ [...]ただし、BASPでは、効果の大きさなどの強力な記述統計が必要です。

ここで、値の問題と誤用については説明しません。p-valueタグを参照すると、CVに関する優れた議論がたくさんあります。値の批判は、多くの場合、関心のあるパラメーターの信頼区間を報告するためのアドバイスと一緒になります。たとえば、この非常によく議論された回答では、 @ gungは、効果のサイズとその周囲の信頼区間を報告することを提案しています。しかし、このジャーナルは信頼区間も禁止しています。pp

値、信頼区間、および重要/重要でない二分法による「従来の」アプローチとは対照的に、データと実験結果を提示するこのようなアプローチの利点と欠点は何ですか?この禁止に対する反応はほとんど否定的なようです。それでは、欠点は何ですか?アメリカ統計協会は、この禁止について、「この政策はそれ自体の否定的な結果をもたらすかもしれない」と言って、簡単な落胆的なコメントを投稿しました。これらの負の結果は何でしょうか?p

または、@ whuberが提案したように、このアプローチは一般的に定量的研究のパラダイムとして提唱されるべきですか?もしそうでなければ、なぜですか?

PS。私の質問は禁止自体に関するものではないことに注意してください。それは提案されたアプローチについてです。私は、頻度論者対ベイジアン推論についても尋ねていません。エディトリアルは、ベイジアン手法についてもかなり否定的です。したがって、基本的には統計を使用することと、統計をまったく使用しないことです。


その他の議論:redditGelman


14
線形回帰モデルにはp値と信頼区間の間に1対1のマッピングがあるので、p値を禁止するが信頼区間を維持するのが理にかなっているという強力な理由はわかりません。しかし、p値と信頼区間の両方を禁止すると、結果の説明にギャップが残ります。標準エラー(同じ1対1マッピンググループの別の測定値)を報告できるかどうか疑問に思います。
リチャードハーディ

7
すべてが誤用される可能性があるため、この条件でのアイテムの禁止は、まあ...奇妙です。私はp値のファンではありませんが、これは問題に対するかなり素朴なアプローチのようです。一つのことは...、適切なものを使用することを奨励しているが、物事を禁止することは、問題に対処する適切な方法のような音はありません
ティム

12
いい案。統計を使用すると、このフィールドの非科学的な性質が隠されるだけです。
アクサカル

4
これは、p値の誤用に対するフラストレーションに対する完全な過剰反応のようです。一般に、P値ではなくp値の誤用を禁止することで、私はより幸せになります。
-TrynnaDoStat

8
リストの4番目の項目は、推定値を必要としないことを示唆しています。これは推測になりますが、効果のサイズは単に説明的な統計として報告されます。(それでも、社説では数行下に、「多くの心理学研究で一般的なものよりも大きなサンプルサイズを使用することをお勧めします。サンプルサイズが大きくなるにつれて、記述統計量はますます安定し、サンプリングエラーは問題にならないためです」 2016年の社説で、この安定性の概念を定式化し、サンプリングエラーの影響を定量的に調査する研究を求めることを楽しみにしています。)
Scortchi-Reinstate Monica

回答:


23

OPがリンクしている現在の2015年の社説の最初の文は次のとおりです。

Basic and Applied Social Psychology(BASP)2014 Editorial *強調*帰無仮説有意性検定手順(NHSTP)は無効である...

(私の強調)

言い換えれば、編集者にとっては、「帰無仮説の有意性テスト」が無効であることがすでに証明された科学的事実であり、2014年の編集ではそれが強調されただけですが、現在の2015年の編集ではこの事実が実装されているだけです。

NHSTPの誤用(悪意を持ってでも)は、実際に十分に議論され、文書化されています。そして、人類の歴史上、「物事が禁止される」ことは前代未聞ではありません。結局、それらは使い古されただけでなく、悪用されたことがわかりました(しかし、統計的にテストすべきではありませんか?)。これは、利益ではなく平均して(推定統計量)が損失になったものを削減するための「2番目に良い」ソリューションになる可能性があるため、将来的にも有害であると予測(推定統計量)します。

しかし、上記の最初の文の文言の背後にある熱意は、これを正確に、提供よりも盗む傾向がある手を切るという冷静な決定ではなく、熱狂的なアプローチとして見ています。上記の引用(DOI:10.1080 / 01973533.2014.865505)で言及されている1年前の社説を読むと、これは新しい編集者によるジャーナルのポリシーの再編の一部にすぎないことがわかります。

社説をスクロールダウンして、彼らは書きます

...それどころか、p <.05のバーは簡単に通過できず、品質の低い研究の口実になることもあります。

したがって、彼らの規律に関連する彼らの結論は、帰無仮説が「あまりにも頻繁に」拒否されるということであるように思われ、したがって、疑わしい発見は偽の統計的有意性を獲得するかもしれない。これは、最初の文の「無効な」ディクトゥムと同じ引数ではありません

したがって、質問に答えるために、ジャーナルの編集者にとって、彼らの決定は賢明であるだけでなく、すでに実装されているのが遅れていることは明らかです:彼らは統計のどの部分が有害になったのかをカットしていると考えているようです有益な部分-彼らはここに何か「同等の」ものと置き換える必要があると信じていないようです。

認識論的に、これは社会科学の学者が定量的方法を使用してその方法と結果の分野をより客観的にしようとする試みから部分的に撤回する例です。 、試みは「善よりも悪」を生み出しました。これは非常に重要な事柄であり、原則として起こり得たことであり、「合理的な疑いを超えて」それを実証し、あなたの規律を本当に助けるのに何年もの仕事を必要とするものです。しかし、発行された1つまたは2つの社説と論文は、おそらく(推測統計)内戦を引き起こすだけでしょう。

2015年の社説の最終文は次のとおりです。

NHSTPを禁止することは、NHSTP思考の定型化された構造から著者を解放することにより、投稿された原稿の質を高める効果があり、それによって創造的思考に対する重要な障害を排除することを期待し、期待しています。NHSTPは何十年も心理学を支配してきました。最初のNHSTPの禁止を制定することにより、心理学がNHSTPの松葉杖を必要とせず、他のジャーナルもそれに続くことを実証することを願っています。


5
はい...このサイトでおしゃべりな言葉や冷笑的な言葉を書くときは注意する必要があります:それらは(完全に)誤解されているかもしれません!
whuber

4
@ naught101 ...それはあまり外交的ではないでしょう。NHSTPが非難される方法に注意してください。これは、心理学者自身が過去数十年にわたってそれを使用していたことをspareしみません。あなたが提案する方法で書かれていれば、それは科学者としての同僚に対する直接攻撃のように見えるでしょう。今のところ本質的にテキストは、善意に満ちた心理学者が残念ながら「誰か」によってアプローチを使用することに誤解されていることを暗示しています。帝国主義?
アレコスパパドプロ

4
悪い職人が自分の道具を非難する。
naught101

3
@BrianDHall NHSTPを取り巻く問題(このサイトを含む)について、特定の著者の問題に関する著作ではなく、より権威あるリソースを調べることをお勧めします。問題は、「受け入れる」と「主張」の周りのセマンティクス...最初に議論する必要がありますあなたのコメント1から困難と-already微妙です
Alecosパパドプロス

6
@ naught101:職人がチェーンソーを適切に処理できないことに気付いた場合、ツールを責めることはできません。しかし、それ以上の害を防ぐために、まだ職人からそれを取り上げるでしょう
;

19

いくつかの「存在」仮説を除いて、仮説テストを禁止することは素晴らしいアイデアだと思います。 。しかし、このジャーナルは、心理学の貧弱な研究の主な推進力が値のしきい値の使用であるという点を見落としていたと思います。心理学や他のほとんどの分野で、かなりの数のゲームがに達することが実証されています。これには、仮説の置換、観測の削除、データのサブセット化が含まれます。最初に禁止されるべきしきい値です。PP<0.05

信頼区間の禁止も船外にありますが、他の人が述べた理由のためではありません。信頼区間は、ベイズの信頼できる区間と誤解する場合にのみ有用です(適切な非情報事前確率のため)。しかし、それらはまだ有用です。彼らの正確な頻繁な解釈が混乱につながるという事実は、我々が「ダッジから出て」ベイジアンまたは可能性学校に行く必要があることを意味します。しかし、古き良き信頼限界を誤って解釈することにより、有用な結果を得ることができます。

ジャーナルの編集者がベイジアン統計を誤解し、純粋な尤度推論の存在を知らないのは残念です。彼らが求めているものは、わずかに懐疑的な事前分布を使用して、ベイジアン事後分布によって簡単に提供できます。


+1、ありがとう。信頼区間について明確にしましょう。信頼区間は標準エラーに関連しているため、おそらくそれらの使用もやめることをお勧めします。最も単純なケースを考えてみましょう。ある値はサブジェクト/オブジェクトのグループ全体で測定されます。平均が3だとしましょう。私が理解している限り、このジャーナルは単に3として報告することを示唆していますが、標準のエラー、たとえばも表示したくないでしょうか。もちろんこれは、95%の信頼区間がであることを意味します。これは、であることも意味するため、すべて関連しています。どのように報告すればよいかわかりません。n3±0.53±1p<0.05
アメーバは、2015

4
標準誤差は単純化されています(対称分布を仮定しているため)が、平均二乗誤差などの有用な精度の尺度です。確率カバレッジを想定せずに、二乗平均平方根誤差に基づく精度区間を考えることができます。したがって、この議論のどこが標準エラーの強調を暗示しているかわかりません。また、CLの使用をやめることを提案していませんでした。しかし、CLの難しさは、主に確率解釈の試みに起因しています。
フランクハレル

うーん。面白い。私には、標準エラーからCI(一定の要因!)への非常に小さなステップがあるように思われます。しかし、おそらくそれはセマンティックポイントです。あなたが言っていることは、人々が標準エラーとCIについて異なって考え、CIについてより混乱する傾向があるということだと思います。この特定のジャーナルポリシーは標準エラーについて何と言っているのだろう(編集部はそれらを明示的に言及していない)。
アメーバは2015

2
対称的な状況では、標準誤差は信頼区間の構成要素です。ただし、多くの場合、正しい信頼区間は非対称であるため、標準誤差にまったく基づくことはできません。ブートストラップと逆変換のいくつかの種類は、このタイプの2つのアプローチです。ここでは、プロファイル尤度信頼区間が特に頭に浮かびます。
フランクハレル

@Frank Harrell-「純粋な尤度の推論」に関しては、しきい値で装飾することなくデータの尤度を要約することに重点を置くことが、編集者が把握していた答えであることに同意します。AWFエドワーズの本「Likelihood」(1972)は、編集者の懸念に直接語ります。 、重要度テストで平準化される可能性のあるこれらのオブジェクトのいずれにも開かれていません。」
ジョンマーク

13

このアプローチは、以前に公開された多くの「重要な調査結果」を再現することができない社会心理学に対処する試みと考えています。

その欠点は次のとおりです。

  1. スプリアス効果につながる多くの要因に対処していないこと。例えば、

    • A)人々は、データを覗き込んで、効果の大きさが興味を引くほど十分に大きいと判断した場合、調査の実行を停止できます。

    • B)パワーの遡及的評価では、大きなエフェクトサイズは依然として大きなパワーを持っているように見えます。

    • C)人々はまだ興味深く大きな効果を求めて釣りをします(実験で多数の仮説をテストし、次にポップアップした仮説を報告します)または

    • D)予想外の奇妙な効果がずっと予想されていたふりをする。

    これらの問題に最初に対処する努力をすべきではありませんか?

  2. 今後の分野では、過去の調査結果のレビューはかなりひどくなります。異なる研究の信v性を定量的に評価する方法はありません。すべてのジャーナルがこのアプローチを実装している場合、Xがどの程度信頼できるかが完全に不明であり、公開された効果を解釈する方法について議論している、またはそれが重要であるか価値があるかについて議論している科学者の集団がいるでしょうについて話す。これは統計情報を持っていることのポイントではありませんか?数字を評価する一貫した方法を提供する。私の意見では、この新しいアプローチが広く実装された場合、混乱が生じるでしょう。

  3. この変更は、研究者が効果サイズの小さい研究の結果を提出することを奨励していないため、ファイルドロワー効果に実際には対応していません(または、効果サイズに関係なく、nが大きい結果を公開しますか?)。慎重に設計された研究のすべての結果を公開した場合、個々の研究の結果の信ability性が不確かであっても、統計分析を提供した研究のメタ分析とレビューは真実を特定するのにはるかに良い仕事をします。


2
@captain_ahabポイント3については、編集者の以前の編集(2014年)が「ヌル効果」研究の提出を明示的に奨励したことを言及しなければなりません。
アレコスパパドプロス

1
私は、通常よりも大きなサンプルサイズを必要とすることを除いて、出版の基準について議論する論説にコメントを見つけることができないようです(推論統計なしで許容可能なnを特定する方法は不明です)。私にとって、この社説では、エフェクトのサイズが何であるかを気にしないという強調はありません。彼らはまだ面白い効果や面白い話を探しているように思えますが、それは社会科学の仕事(つまり、面白い効果や話の事後検索)の大きな問題だと思います。
captain_ahab

2
より良い解決策のように思われるのは、すべての科学者が、研究を実行する前に、公の場所で研究の仮説、基本的な合理性、力、および分析アプローチを記録しなければならないということです。そして、その研究を規定の方法で公開することに限定されます。予想外の興味深い効果が見つかった場合、彼らは公に記録し、その効果を調べる新しい調査を実行する必要があります。偽陽性を制御するこのアプローチにより、科学者は新しい効果を公開せずに生産性を実証することもできます。
captain_ahab

7

私は同じ点についてほぼ主張している素晴らしい引用に出くわしましたが、それは完全ではありません-それはほとんどが頻繁な統計と仮説検定に関する教科書の冒頭の段落であるためです。

著者のような非統計学者が広く支持しているのは、良い実験をすれば統計は必要ないということです。彼らはまったく正しい。[...]障害は、もちろん、良い実験を行うのが難しいということです。ほとんどの人は、自分の好きな理論がこの種のことを何もしない観測によって実証されていると主張することによって、自分たちを馬鹿にすることを防ぐために得ることができるすべての助けを必要としています。そして、重要性のテストを扱う統計のそのセクションの主な機能は、人々が自分をだますことを防ぐことです。この観点から、有意性テストの機能は、実験を公開する人々を防ぐことであり、実験を奨励することではありません。理想的には、実際に、有意性テストは印刷物に決して表示されず、不適切な実験を検出するための予備段階で使用されていたとしても、

-David Colquhoun、生物統計学の講義、1971


1
あなたの投稿は、答えではなく、実際にはコメントですので、私はそれを支持することは控えていますが、引用を共有してくれてありがとう。この一節には、非常に多くの誤解があり、それらをすべて指摘し、非難するために、多大な努力(スペースは言うまでもありません)が必要です。しかし、一言で言えば、これらの主張に対するカウンターは「効率」です。誰もが時間と予算に制限がない場合、少なくとも「良い実験」を実行することを望みます。しかし、リソースが限られている場合、「最終的な、...明確な」実験のみを行うのは無理があります(コストもかかります)。
whuber

2
コメントありがとう、@ whuber; あなたの言っていることに同意します。それでも、理想的には実験データが正式な仮説検定を冗長にするほど説得力があるべきだと言うのは魅力的だと思うことを付け加えなければなりません。これは達成不可能な理想ではありません!(p値が多く使用されている)私の分野では、私は最高の論文があることを見つけるされているなど、彼らは、一緒になってお互いをサポートしているいくつかの実験の順序、提示ので:それらなしで説得明らかに統計的まぐれすることはできませんが。再コメント:コメントするには長すぎたため、CWの回答としては問題ないと考えました。
アメーバは、モニカを復活させる

はい、なぜ回答として投稿する必要があるのか​​理解しているため、コメントに移動することを投票しませんでした(引用の最後の部分を切り捨てます)。特定の場合に理想が達成できないことに私は同意します。私は、それが心に留めておくべき素晴らしい理想であることにも同意します。しかし、実験を設計する方法のガイドとして(全体として、リソースを割り当てることの規律)、それはひどい間違いかもしれません。(これは確かに議論の余地があります。)しかし、「良い」実験は統計的手法を必要としないという提案は、大雑把な検査にも耐えられないものです。
whuber

1
おそらく、ある物質が特定の生理学的反応を刺激することを示唆した最初の有意性試験は、用量反応曲線に対するさまざまな種類の阻害剤の効果に関する調査を発表するまでには意味がありません。
Scortchi -モニカ元に戻し
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.