選択した偽陽性/偽陰性のエラー率と基礎となるコスト比を厳密に正当化する方法は?


12

環境

社会科学者と統計学者のグループ(Benjamin et al。、2017)は、最近、「統計的有意性」を決定するためのしきい値として使用される典型的な偽陽性率( = .05)をより保守的なしきい値(α = .005)。競合する社会科学者と統計学者のグループ(Lakens et al。、2018)が回答し、これまたはその他の任意の閾値の使用に反対しました。以下は、レーケンズらからの引用です。(p。16)それは私の質問の主題を例示するのに役立ちます:αα

理想的には、アルファレベルは、決定理論を使用して効用関数に対してコストと利点を比較することによって決定されます。この費用便益分析(およびアルファレベル)は、入手が困難なサンプルからデータを収集する場合と比較して、大きな既存のデータセットを分析する場合に異なります。科学は多様であり、使用することを決定したアルファレベルを正当化するのは科学者次第です。...研究は、ヒューリスティックおよび任意の包括的しきい値ではなく、厳密な科学の原則に基づいて行う必要があります。

質問

Lakens et al。のように、選択されたアルファを「厳密な科学の原則に導かれる」方法で正当化する方法を考えているのです。ほとんどの社会科学の文脈(つまり、最適化するために利益などのより具体的な品質がある特定のケース以外)で提案しますか?

Lakensらの普及に続いて、私は研究者がこの決定を下すのを助けるためにオンライン計算機が循環しているのを見始めました。それらを使用する場合、研究者は偽陽性と偽陰性のエラーの「コスト比」を指定する必要があります。ただし、この計算機示唆しているように、このようなコスト比率の決定には、多くの定量的な推測作業が含まれます。

いくつかのエラーコストは金銭的に簡単に定量化できます(直接コスト)が、他のエラーコストを1ドル(間接コスト)にすることは困難です。...定量化するのは困難ですが、それらに数字を付ける努力をする必要があります。

たとえば、レイケンズなど。アルファを正当化する際に考慮する可能性のある要因として到達困難なサンプルを検討することを提案しますが、そのサンプルがどれだけ到達困難であるかを推測し、それによってアルファの選択をそれに応じて調整する方法を推測しているようです。別の例として、誤った推論を前提とする研究の追求に他の人が後でどれだけの時間/お金を費やすかという観点から、偽陽性の公開のコストを定量化することは私には難しいように思われます。

このコスト比の決定が主に主観的な最善の推測の問題である場合、これらの決定が(再び、利益のようなものの最適化以外で)「正当化」できるかどうか疑問に思っています。つまり、サンプリング、トレードオフ、影響などについて行われた仮定の外に存在する方法で?このように、偽陽性/偽陰性エラーのコスト比を決定することは、ベイジアン推論で事前分布を選択することに似ているように思われます。 -合理的な比較かどうかはわかりませんが。

概要

私の質問を具体的にするには:

  1. 偽陽性/偽陰性率とそのコスト比は、ほとんどの社会科学の文脈で「厳密に」正当化されることはありますか?
  2. もしそうなら、これらの分析の選択を正当化するために従うことができる一般化可能な原則は何ですか(そしておそらくそれらのうちの1つまたは2つの例)
  3. そうでない場合、コスト比を選択する際の潜在的な主観性(ベイジアンの事前選択に似ている)の私の類推は合理的なものですか?

参照資料

Benjamin、DJ、Berger、J.、Johannesson、M.、Nosek、BA、Wagenmakers、E。、... Johnson、V.(2017年7月22日)。統計的有意性を再定義します。psyarxiv.com/mky9jから取得

Lakens、D.、Adolfi、FG、Albers、CJ、Anvari、F.、Apps、MA、... Zwaan、RA(2018、January 15)。あなたのアルファを正当化します。psyarxiv.com/9s3y6から取得


4
「客観的に正当化された」使用方法を定義できますか?タイプIのエラー確率は、先験的なタイプIIのエラー確率と同様、研究者の好みです。研究者はどのような方法で「客観的に正当化」しますか?たとえば、優先研究アジェンダ、優先研究協力者または資金提供者、優先研究助手トレーニングおよびメンタリングのアプローチでしょうか?
アレクシス

1
単なる好み以上のものとして客観的に正当化。Lakens et al。、論文は現在、ショートハンド「JYA」[Justify Your Alpha]タイトルの下で流通しており、上記の引用に基づいた彼らの議論の私の読みは、古い好みはしないということです。明確にするために、選択したタイプI / IIのエラー率を客観的に正当化できるという議論は必ずしも必要ではありません。むしろ、私の調査は、レイケンズらを解釈することを前提としています。あなたができることを提案するために、もしそうなら、私はそれをどうするか理解していません。
jsakaluk

3
Lakens et al。からのこの引用には「客観的に」という言葉はありません。彼らは本当に自分の論文でそれを使用していますか?もしそうなら、より具体的なコンテキストを提供するために別の引用符を追加できますか?そうでない場合、「レイケンズらが示唆するように、選択したアルファを客観的に正当化する」などのことを言うことができるかどうかはわかりません。
アメーバは、モニカを復活させる

2
投稿を更新しましたが、現在は「客観性」が取り除かれています。議論を誤って特徴付けることは私の意図ではありませんでしたが、読者が私が不注意に書いたと思ったかどうかは理解できます。Lakens et al。私の質問は、より確実に足場の上に今あるので、「科学的な厳格さの原則によって導か」の記述を使用しています。しかし、それが何を意味するのか疑問に思っています。当て推量は、ヒューリスティックよりも厳密に見える必要があるように見えますか?それが違いを生むなら、私は科学的現実主義者がアルファの「科学的に厳密な」正当化の基準にどのように到達するかについて特に興味があります。
jsakaluk

2
繰り返しますが、それは私の用語ではなく、私の質問の一部は、その用語が意味する可能性のあるものを理解するのに役立つ答えを得ることを目的としています-Lakens et alが言っていないことの制約の中で、模範的な一般原則を求めます平均(つまり、ヒューリスティックではなく、任意のしきい値ではありません)。「科学的に厳密な正当化」の複数の定義を念頭に置いている場合、異なる定義が生成される可能性がありますα

回答:


1

(これもツイッターに投稿されましたが、ここに再投稿されました)答えに対する私の試み:正当化は「純粋に」客観的であるとは思わないが、合理的/経験的根拠で防御可能な基準に基づくことができる。RSSは、特定のタイプの研究に対してp <.005を正当化する方法の例だと思いますが、異なるアルファが<.005(より高いまたは低い)よりも最適である他の状況もあると思いますどのアルファが実行可能か、そして研究の目的は何か。たとえば、5,000人の参加者がいて、関心のある最小効果サイズが.10である場合、p <.001を使用し、90%の電力(数値はすべて構成されている)を使用できます。対照的に、小さな実験を実行するとします。研究ラインの最初の「概念実証」として。N = 100、p <.10、90%の電力、


1

私は最近、同じ質問について多くのことを考えてきましたが、心理学の他の多くの人も同様だと思います。

まず、質問はそれぞれ客観的と主観的のどちらで選択するかに関するものですが、(ここで他の人が述べたように)客観的対主観的選択を構成するものを完全には説明していません。

科学における「客観​​的」および「主観的」ラベルの一般的な使用法にまとめられたさまざまな価値を展開するGelman&Hennig 2015の論文に興味があるかもしれません。それらの定式化において、「客観的」は透明性、コンセンサス、公平性、および観測可能な現実への対応の値に関連し、「主観的」は複数の視点およびコンテキスト依存の値に関連します。

質問3に関連して、ベイジアンビューでは、確率は世界に関する不確実性の定量化として定義されます。私が理解していることから、「主観的ベイジアン」(確率は個々の信念の状態を反映)と「客観的ベイジアン」思考の学校(確率はコンセンサス妥当性を反映)に明らかな緊張があります。客観主義学派内では、コンセンサスと一致し、確認できる透明な方法で、事前分布(およびより一般的にはモデル)の正当化に重点が置かれていますが、モデルの選択は確かにコンテキスト依存です(つまり、 、特定の問題に関するコンセンサス知識の状態に依存します)。

頻繁な概念では、確率は、無限の独立した複製が発生した場合にイベントが発生する回数を反映します。Neyman-Pearsonフレームワーク内では、データに基づいて正確な対立仮説と正確なアルファを規定し、正確なnullまたは正確な代替(母集団効果が規定されたものと正確に等しい)を受け入れてから、誤ってそうすることの長期的な頻度。

このフレームワーク内では、人口効果サイズの正確なポイント推定値はほとんどありませんが、妥当な値の範囲があります。したがって、特定のアルファを条件として、タイプ2エラー率の正確な推定値ではなく、妥当なタイプ2エラー率の範囲があります。同様に、タイプ1エラーまたはタイプ2エラーの実際のコストとメリットを正確に把握していないという一般的な点にも同意します。つまり、最初に仮説がどうあるべきかについての情報が非常に不完全であり、この仮説を受け入れるか拒否するかという相対的なコストとメリットについての情報がさらに少ない状況に直面することがよくあります。

あなたの質問に:

  1. 偽陽性/偽陰性率とそのコスト比は、ほとんどの社会科学の文脈で客観的に正当化されることはありますか?

その理由は、正当化は透明であり、コンセンサスと調和し、公平であり、現実に対応できるという点であると思います(コストと利益について入手可能な最高の情報を使用している限り)。

ただし、特定の問題にアルファを設定する方法に関して複数の有効な視点があり、適切なアルファを構成するものが意味的にコンテキストに依存する可能性があるという点で、そのような正当化も主観的であると思います。

たとえば、近年、文献の多くの影響がタイプMまたはタイプSのエラーを反映していることが明らかになりました。また、レプリケーション研究がゼロ効果のゼロの証拠を提供できる範囲で、タイプ1エラーを反映する場合があります。

この観察に関連して、確実性のあるクレームのp値のしきい値を同じにするか、より厳しくする必要があるというコンセンサスが生まれています(つまり、アルファの.10または.20への全面的な増加については誰も主張していません) 。同様に、p値を公開の基準として使用すべきではないというコンセンサスが新たに生まれています(たとえば、登録レポート形式)。

私には、これは一種の「客観的な」情報源を反映しています。つまり、私の読書では、(これらの費用に金額をかけることができなくても)虚偽の主張は費用がかかるというコンセンサスが高まっています。私の読書では、p値のしきい値を満たさないことは、この分野にとって劇的なコストであるという明確なコンセンサスはありません。コストが存在する場合、p値のしきい値を満たさなくても推定値が発行済みの論文になるかどうかに影響を与えない場合、コストを軽減できます。

  1. もしそうなら、これらの分析の選択を正当化するために従うことができる一般化可能な原則は何ですか(そしておそらくそれらのうちの1つまたは2つの例)

私は確信していませんが、特定のコンテキストでのさまざまな種類の分析選択のコストとメリットに関する透明な(ローカルまたはグローバルな)コンセンサス判断に基づいて決定を下す必要があるという原則に傾倒しますこれらの費用と便益が何であるかについての非常に不完全な情報の顔。

  1. そうでない場合、コスト比を選択する際の潜在的な主観性(ベイジアンの事前選択に似ている)の私の類推は合理的なものですか?

はい。頻度モデルとベイジアンの伝統には、統計モデルのさまざまな側面に主観性(すなわち、複数の視点と文脈依存性)と客観性(すなわち、透明性、コンセンサス、公平性、観察可能な現実への対応)の余地がありますそして、そのモデルの使用方法(選択された事前確率、選択された尤度、選択された決定しきい値など)。


これはいい答えです。私があまり確信していない1つの部分は、通信の主張です。この用語を同じように理解している場合(真実の対応理論の観点から考えています)、実際には、Typeのコストの正確な考えを持っていなければ、対応が不安定なように思えますI / IIエラー。代わりに、コヒーレンス(これらの最初の仮定が与えられ、残りの数字が「理にかなっている」)またはプラグマティズム(タイプI / IIエラーコストの推測は、研究計画に役立つフィクション)に対するより良い主張があるようです。
jsakaluk

おそらく、私は「正当化」を通信/現実主義の観点と結婚させようと懸命に努力していますが、これらの他の理解方法では、タイプI / IIエラー率は「正当化」される方法で選択できますか?
jsakaluk

これらのアイデアを教えてくれてありがとう。どのような状況においても、将来のコストと便益がどのようなものになる可能性があるかについての良い情報を持っているかもしれませんし、非常に貧弱な情報を持っているかもしれません。非常に大雑把な意味で、誤検知(p <threshold、真の効果は正確にゼロ)は、有意なしきい値を満たしていない場合よりもフィールドに対して有害である可能性があるというコンセンサスが高まっています(ただし、推定値を公開します)。特定の地域の状況では、重要なしきい値を満たさないことに関連して、より深刻なコストが発生する場合があります。
サワードウ

接線方向では、「アルファ」および「タイプ2エラー」の概念は、分析者が2つの正確な仮説を指定し、手順の最後にどちらか一方を受け入れることにコミットしているNPフレームワークにのみ存在します。ただし、一般的な慣行では、分析者はしばしば、不確実な力を伴う有意でない推定に基づいてヌルを受け入れないように警告され、本質的にヌルを受け入れず、「タイプ2エラー」がないフィッシャースタイルの解釈に戻ります。
サワードウ

1
「コンセンサス」の説明の背後にあるソーシャルネットワーク、ソーシャルクラス、およびソーシャルインタラクションが、それらすべての根底にある主観的な信念や価値観から何らかの形で離れていることは、私にとって面白いことです。
アレクシス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.