ASAは


100

すでにとしてタグ付けされた複数のスレッドがあり、それらについての多くの誤解が明らかになっています。10か月前、pを「禁止」した心理学雑誌pについてのスレッドがありましたが、現在は米国統計協会(2016)の分析では「値の計算で終わるべきではない」と言われています。p

米国統計協会(ASA)は、値の適切な使用と解釈の根底にあるいくつかの広く合意された原則を明確にする正式な声明から科学界が利益を得ることができると考えています。p

委員会は、値の可能な代替手段または補足として他のアプローチをリストします。p

値の一般的な誤用および誤解を考慮して 、一部の統計学者はp値を他のアプローチで補完するか、さらには置き換えることを好み ます。これらには、信頼性、信頼性、予測間隔など、テストよりも推定を重視する方法が含まれます。ベイジアン法; 尤度比やベイズ因子などの証拠の代替手段。意思決定理論モデリングや誤発見率などの他のアプローチ。これらの測定とアプローチはすべて、さらなる仮定に依存していますが、効果のサイズ(および関連する不確実性)または仮説が正しいかどうかにより直接対処する場合があります。pp

それでは、値後の現実を想像してみましょう。ASAは、p値の代わりに使用できるいくつかのメソッドをリストしていますが、なぜより良いのですか?すべての人生でp値を使用した研究者にとって、実際の代替物となるのはどれですか?私が質問のこの種のことを想像するだろう後に表示されたpので、多分のは、一歩先にそれらのことを試してみましょう、-values現実。すぐに適用できる合理的な代替手段は何ですか?このアプローチが主任研究者、編集者、または読者を説得するのはなぜですか?pppp

このフォローアップブログエントリが示唆しているように、値はそのシンプルさにおいて無敵です。p

p値には、保持する帰無仮説の下での統計の振る舞いの統計モデルのみが必要です。「良い」統計(p値の構築に使用される)を選択するために対立仮説のモデルが使用される場合でも、この代替モデルは、p値が有効であり、有用です(つまり、実際の効果を検出するためのパワーを提供しながら、希望するレベルでタイプIエラーを制御します)。対照的に、尤度比、効果サイズ推定、信頼区間、ベイジアン法などの他の(驚くほど有用な)統計的手法はすべて、テストされたヌルの下だけでなく、より広い範囲の状況を保持するための仮定モデルを必要とします。

それとも、それとも真実ではないのでしょうか?

私は知っていますが、これは広範ですが、主な質問は簡単です:代替として使用できる値に代わる最良の(そしてなぜ)実際の代替物は何ですか?p


ASA(2016)。統計的有意性と値に関するASAステートメント。P アメリカの統計学者。(印刷中)


3
古典的な質問+1になります!ベイジアンのアプローチは、私たちが頻繁に興味を持っている質問に(少なくとも主観的に)答えることができるためです。
クリストフハンク

9
「Post value現実」には、素敵なディストピアリングがあります。p
マーククレセン

4
ASAステートメントと一緒に投稿されたディスカッションペーパーは、p値を置き換えることができるものについて提案があるため、読む価値があります。補足コンテンツ
セス

2
ASAレポートの別の部分に基づいて関連する質問を投稿しました。p値の潜在的な悪用に関する警告の1つです。pハッキングについてどのくらい知っていますか。
シルバーフィッシュ

1
:自分の質問にコメントとして、同様のトピックについて説明します素敵なスレッドがありstats.stackexchange.com/questions/17897/...
ティム

回答:


100

この答えは、p値に代わるものは何かという特定の質問に焦点を当てます。p

ASAの声明とともに21のディスカッションペーパーが(補足資料として)公開されています。ナオミアルトマン、ダグラスアルトマン、ダニエルJ.ベンジャミン、ヨアフベンジャミニ、ジムバーガー、ドンベリー、ジョンカーリン、ジョージコブ、アンドリューゲルマン、スティーブグッドマン、サンダー・グリーンランド、ジョン・イオアニディス、ジョセフ・ホロウィッツ、ヴァレン・ジョンソン、マイケル・ラヴィン、マイケル・ルー、ロッド・リトル、デボラ・メイヨー、ミシェル・ミラー、チャールズ・プール、ケン・ロスマン、スティーブン・セン、ダリーン・スタングル、フィリップ・スターク、スティーブ・ジリアク;今後の検索のためにすべてをリストします)。これらの人々は、おそらく値と統計的推論に関する既存の意見をすべてカバーしています。p

21の論文すべてを調べました。

pp

それでは、ASAステートメント自体(質問で引用)に記載されている「その他のアプローチ」のリストを見てみましょう。

[その他のアプローチ]には、信頼性、信頼性、予測間隔など、テストよりも推定を重視する方法が含まれます。ベイジアン法; 尤度比やベイズ因子などの証拠の代替手段。また、意思決定理論モデリングや誤発見率などの他のアプローチ。

  1. 信頼区間

    p±p

    p

    p

    p

  2. ベイジアン法

    (ASAステートメントがリストをどのように定式化するのが好きではありません。信頼区間とベイズ因子は「ベイジアン手法」とは別にリストされますが、明らかにベイジアンツールです。ここで一緒に数えます。)

    • p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)—残念ながら、通常、人々は良い優先順位を持っていません。実験者は、ある条件で何かをしている20匹のラットと、別の条件で同じことをしている20匹のラットを記録します。前者のラットのパフォーマンスは後者のラットのパフォーマンスを超えると予測されていますが、パフォーマンスの違いについて明確な事前を述べる意思のある、または実際に述べることができる人はいません。(しかし、彼が「懐疑的な事前決定」を使用することを提唱している@FrankHarrellの答えを参照してください。)

    • t

    • ハロルド・ジェフリーズに戻る別のアプローチは、ベイジアン推定に反してベイジアン検定に基づいており、ベイズ因子を使用します。より雄弁で多作な支持者の1人はEric-Jan Wagenmakersです。彼近年このトピックに関して多くのこと発表しています。このアプローチの2つの機能は、ここで強調する価値があります。最初に、そのようなベイジアン検定の結果が対立仮説特定の選択にどれだけ強く依存できるかについての説明については、Wetzels et al。、2012、ANOVA Designs for ANOVA Designsを参照してくださいH1p

      ベイズ因子とp値

      pp0.05α

      p

      Uri Simonsohnによるブログ記事「デフォルトのベイジアンテストは小さな影響に対して偏見です」も参照してください。

    • pp


    ベイズ推定とベイズ検定の詳細については、ベイズパラメーター推定またはベイズ仮説検定を参照してくださいその中のリンク。

  3. 最小ベイズ係数

    ASAの論争者の間で、これはBenjamin&BergerとValen Johnsonによって明示的に示唆されています(具体的な代替案を提案することについての唯一の2つの論文)。具体的な提案は少し異なりますが、精神的には似ています。

    • μ=00.5μ0.50p(H0)pppeplog(p)pelog(p)1020p スティーブン・グッドマンも。

      後の更新:これらのアイデアを簡単な方法で説明する素敵な漫画をご覧ください。

      pp

      ミニナムベイズ因子

    • p4πlog(p)510


    ジョンソンの論文に対する短い批判については、PNAS のAndrew Gelmanと@ Xi'anの回答を参照してください。1987年のBerger&Sellkeへの反論については、Casella&Berger 1987(異なるBerger!)を参照してください。APAディスカッションペーパーの中で、Stephen Sennは、これらのアプローチのいずれかに明示的に反対します。

    P

    Mayoのブログへの参照を含む、Sennの論文の参照も参照してください。

  4. ASAステートメントには、別の選択肢として「決定論的モデリングと誤検出率」がリストされています。私は彼らが何について話しているのか見当がつかず、Starkのディスカッションペーパーでこれが述べられているのを見てうれしく思いました。

    pp


ppppp

Andrew Gelmanのディスカッションペーパーから引用するには:

pp

そして、スティーブン・センから:

P

p<0.05p

[...] NHSTに代わる魔法の代替手段、それを置き換える他の客観的な機械的儀式を探してはいけません。存在しません。


1
@amoebaありがとう、これは素晴らしい要約です!私はあなたの懐疑に同意します-このスレッドは、私がそれを共有しているために部分的に生じました。現時点では、スレッドを開いたままにします-受け入れられる答えはありません-誰かが真の、良い代替が存在するという説得力のある例と議論を提供できるかもしれません。
ティム

1
@amoeba WagenmakersとBICに関する批評と比較するのは良いことです。例えば、Gelmanによって:andrewgelman.com/2008/10/23/i_hate_bic_blah
ティム

2
これは、CVでトップに選ばれた回答の1つにふさわしい、本当に印象的な答えです。ティムの後にいつか別の報奨金を追加するかもしれません。
グング

ありがとう、@ gung、私はそれを聞いてうれしいです、それはあなたからたくさん来ることを意味します。ただし、私は表面的にはベイジアンテストに精通しているだけで、実際の経験はゼロであると言う必要があります。したがって、この回答は私が読んでいるものの要約を提供しますが、それは実際には専門家の意見ではありません。
アメーバ

1
いいえ。Bayesがうまく機能するためには、事前に情報提供する必要はありません。Spiegelhalterが非常によく示しているように、懐疑的な事前事項は主要な役割を持ち、使いやすいです。ベイジアン事後確率には大きな利点があります。
フランクハレル

27

これが私の2セントです。

ある時点で、多くの応用科学者が次の「定理」を述べたと思います。

p-value<0.05my hypothesis is true.

そして、ほとんどの悪い習慣はここから来ています。

p

私は統計を実際に理解せずに人々と仕事をしていましたが、ここに私が見るもののいくつかがあります:

  1. p<0.05

  2. p<0.05

  3. 0.05

それはすべて、熟知した誠実な科学者によって行われ、不正行為に対する強い感覚はありません。どうして ?私見、定理1のため。

p0.05p<0.05p<0.05

p

p

p>0.05

  1. H0:μ1μ2pH0p=0.2

pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

別の関連するケースは、専門家が望む場合です:

  1. μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

このケースを解決する唯一の解決策は、対立仮説に言及することです。

そのため、事後オッズ、ベイズ因子または尤度比を信頼/信頼区間と組み合わせて使用​​すると、主要な問題が軽減されるようです。

p

pp

私の2セントの結論

p


たぶん、あなたはあなたの例をより明確にするために編集することができます。なぜなら今は何を計算していて、データは何で、数字はどこから来たのでしょうか?
ティム

@ティム。feedbakのTks。どの例を参照していますか?
peuhp

「(データがあるからといって)仮説を比較してみてください:10と10のデータを取り、p値を計算します。p= 0.2を見つけます....」
ティム

1
また、データが示唆するように思われる場合でも、仮説を「知る」ことは必ずしも悪いことではないと思います。グレゴール・メンデルは、彼の実験が間違っていたとき、彼の理論が正しかったという非常に強い直観を持っていたので、どうやらこれを感じたようです。
dsaxton

@dsaxton完全にあなたに同意します。多分それはそれほど明確ではないかもしれませんが、これは私の第1ポイントで説明しようとするものの1つです。p値は科学的帰納法の究極の鍵ではありません(特定の聴衆にとってはそうです)。これは、一定の条件で、一定量のデータによる証拠の統計的測定です。そして、hypが真であると考えるにはあまりにも多くの外部の理由があるが、データが「良い」p値を提供する場合、あなたが適切に言及したように他の事柄が議論されるかもしれません。私は私のanwserでそれをより明確にしようとします。
peuhp

24

P

  1. ベイジアン法よりも多くのソフトウェアが頻繁に使用される方法に利用できます。
  2. 現在、一部のベイジアン分析の実行には時間がかかります。
  3. ベイジアン手法では、より多くの思考と時間の投資が必要です。私は思考の部分を気にしませんが、時間が短いことが多いので、ショートカットを取ります。
  4. ブートストラップは、ベイジアンよりも頻度の高い世界により関連した、非常に柔軟で便利な日常的な手法です。

PP 任意の多重度調整を行う必要があり、影響はあるかもしれないが実際にはそうではないデータの外観を調整することさえできます

P

ガウス線形モデルと指数分布を除いて、頻度論的推論で行うほとんどすべてが近似です(対数尤度関数が非常に非二次であるため問題を引き起こすバイナリロジスティックモデルが良い例です)。ベイジアン推論を使用すると、すべてがシミュレーションエラーの範囲内で正確になります(そして、事後確率/信頼できる間隔を取得するためにいつでもより多くのシミュレーションを実行できます)。

http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.htmlに私の思考と進化のより詳細な説明を書きました


3
p

2
p

3
t

1
フランク、ありがとう。私はベイジアン検定にあまり詳しくありません(Box&Tiaoについても聞いたことがありません)が、私の一般的な印象は、ベイジアン検定から得られるベイズ因子は、その前の情報価値のない特定の選択に非常に強く依存する可能性があるということですそして、これらの選択は動機付けが難しい場合があります。信頼できる間隔についても同じことが言えます。それらは、情報価値のない事前確率の選択に強く依存します。本当じゃない?もしそうなら、どのように対処する必要がありますか?
アメーバ

2
はい、ベイズ因子を使用していません。頻出主義者のアプローチは、事前知識も選択します-主題に関する他のすべての知識を無視するもの。私は、シュピーゲルハルターの懐疑的な事前アプローチを好みます。理想的な世界では、懐疑論者に先例を提供させます。
フランクハレル

6

ウォートンのブリリアント予報官スコットアームストロングは、10年ほど前に、彼が共同設立したジャーナルを予測する国際ジャーナルで、「重要性テストが予測における害の進行状況」というタイトルの記事を発表しました。これは予測ではありますが、データ分析や意思決定に一般化できます。記事では次のように述べています。

「統計的有意性のテストは科学の進歩に害を及ぼします。これまでのところ、この結論の例外を見つけようとする努力はありませんでした。」

これは、有意性検定とP値の対立的な見解に関心のある人にとって優れた読み物です。

私がこの記事が好きな理由は、アームストロングが簡潔であり、特に私のような非統計学者にとって容易に理解できる有意性検定の代替手段を提供するからです。私の意見では、これは質問で引用されたASAの記事よりもはるかに優れています:ここに画像の説明を入力してください

ランダム化された実験的研究または準実験を行う場合を除き、これらすべてを受け入れ続け、有意性テストの使用またはP値の確認を停止しました。製薬業界/ライフサイエンスおよび工学の一部の分野を除いて、実際には非常にまれなランダム化実験を追加する必要があります。


4
「製薬業界や工学の一部の分野を除いて、実際にはランダム化された実験は非常にまれです」とはどういう意味ですか?ランダム化された実験は、生物学と心理学のいたるところにあります。
アメーバ

ライフサイエンスを含めるように編集しました。
予報官

2
さて、しかしそのランドと言って。exp。医学と生命科学を除いて「非常にまれ」であり、心理学は基本的に「非常に一般的」であると言っています。それで、あなたの主張がわかりません。
アメーバ

6

p

私たちが現代のテストを実施する方法は、どちらも現代の方法に大きく貢献したフィッシャーとネイマン・ピアソンの理論と展望と決して一致しないことを指摘します。フィッシャーの最初の提案は、科学者が定性的に比較し、べきであるというものでしたp。私はまだこれが適切なアプローチだと思います、それはそれらのコンテンツ専門家の手に調査結果の科学的適用性の問題を残します。現在、現代のアプリケーションで見つかったエラーは、科学としての統計の欠陥ではありません。また、遊び、外挿、および誇張も行われます。確かに、もし心臓病専門医が嘘をついて、平均血圧を0.1mmHg下げる薬が「臨床的に重要」であると主張するなら、統計はそのような不正から私たちを守ることはありません。

決定理論の統計的推論に終止符が必要です。仮説を超えて考えるよう努力する必要があります。臨床的有用性と仮説駆動型調査との間のギャップの拡大は、科学的完全性を損ないます。「重要な」研究は非常に示唆に富んでいますが、臨床的に意味のある発見を約束することはめったにありません。

これは、仮説駆動型推論の属性を調べると明らかです。

  • 述べられた帰無仮説は考案されており、現在の知識に同意せず、理由や期待に反します。
  • 仮説は、著者が作成しようとしているポイントに正接する場合があります。統計は、その後の記事での議論の多くとほとんど一致せず、著者は、例えば、観察研究が公共政策とアウトリーチに影響を与えるという広範囲に及ぶ主張をしている。
  • 仮説は、関心のある母集団を適切に定義していないという意味で不完全な傾向があり、一般化につながる傾向があります。

私にとって、代替手段はメタ分析的アプローチであり、少なくとも定性的なアプローチです。すべての結果は、特に包含/除外基準、曝露/結果に使用される単位またはスケール、および効果のサイズと不確実性の間隔(95%CI )。

また、独立した確認試験を実施する必要があります。多くの人々は一見重要な一見に左右されますが、複製がなければ、研究が倫理的に行われたとは信じられません。多くは、証拠の偽造から科学的なキャリアを作っています。


「フィッシャーの当初の提案は、科学者がp値を研究の力と定性的に比較し、そこで結論を出すべきだというものでした。」私はこの点が大好きです----フィッシャーがこれを言ったことを引用できる参考文献がありますか?科学者がp <0.05の単純な二分法からわずかに単純でない二分法に移行した場合、「p <0.05 ANDパワーが高ければ、合理的に強力な証拠が得られます。p> 0.05 OR電力が低かったため、データがさらに得られるまで、この仮説についての判断を保留します。」
シビルスタット

6

ppp

医学文献からの2つの参考文献は、(1)ラングマン、MJSがTowards推定と信頼区間 、Gardner MJとAltman、DG が{P}値ではなく信頼区間:仮説検定ではなく推定


2
実際には、CIのはないではない。例えばモレーら(2015年)、「信頼区間の信頼を置くことの誤謬」チェック基礎心理速報&レビュー、効果の大きさと精度を示しlearnbayes.org/papers/confidenceIntervalsFallacy
ティム

8
@Tim、素敵な紙、私はそれを見たことがありません。私は潜水艦の例が好きでした。リンクをありがとう。しかし、それは真のベイジアンパルチザンによって書かれていると言う必要があります:「非ベイジアン区間は望ましくない、さらには奇妙な特性を持っています。合理的なアナリスト!印象的な慢。
アメーバ

1
@amoebaは同意します、私は反例を提供しているだけです。なぜなら、私にとっては、選択肢が一目でわかるほど明確で直接的であることはそれほど明白ではないからです。
ティム

4
おもしろいですが、潜水艦の例はそれほど魅力的ではありませんでした。思考統計学者は、この例の統計学者が行う方法を推論しません。他の人に役立つからといって、思考をやめずに、すべての状況に盲目的にメソッドを適用します。
dsaxton

2
@amoeba:その特定の引用では、「非ベイジアン間隔」とは、特に非ベイジアン論理によって正当化されるすべての間隔ではなく、その例で説明した間隔を指します。より多くのコンテキストは、ここを参照してください:stats.stackexchange.com/questions/204530/...
richarddmorey

1

私の選択は、p値の使用を継続することですが、単純に信頼性/信頼性のある間隔を追加し、場合によっては主要な結果の予測間隔を追加します。Douglas Altman(Statistics with Confidence、Wiley)による非常に素晴らしい本があります。ブーストラップとMCMCアプローチのおかげで、常に適度に堅牢な間隔を構築できます。


6
「なぜ彼らは良いのか」/「なぜこのアプローチはあなたの主任研究者、編集者、または読者を納得させるべきなのか」という主な質問に本当に答えていないと思います。あなたの選択を開発できますか?
peuhp

1.それは単に現在の実践を可能にするだけです。2.とにかくCIで「バックドア重要度テスト」を行う傾向があります。4.研究者は、臨床的に重要な境界または効果の閾値を事前に指定することはできません。
AdamO

1

p

  • 対象集団の結果をシミュレートできる、より洗練されたモデルを開発する
  • 提案された決定、治療、またはポリシーを実装できる対象集団の属性を識別および測定する
  • 生年、品質調整生年、ドル、作物生産量などの目標量の未加工単位での予想損失をシミュレーションにより推定し、その推定の不確実性を評価する。

どうしてもこれは通常の仮説の有意性検定を妨げるものではありませんが、統計的に有意な結果は実際の発見への道の非常に早い中間段階であり、研究者が彼らの発見により多くのことをすることを期待する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.