現在の議論が統計的有意性に与える影響


10

過去数年間、さまざまな学者が科学的仮説検定の有害な問題を提起しており、これは「研究者の自由度」と呼ばれています。つまり、科学者は分析中に、p値<5%の発見に偏る多くの選択肢を持っています。これらのあいまいな選択は、たとえば、どのケースが含まれるか、どのケースが外れ値として分類されるか、何かが現れるまで多数のモデル仕様を実行するか、nullの結果を公開しないかなどです(心理学におけるこの議論を引き起こした論文はここにあります、人気のスレートの記事を参照し、フォローアップの議論をアンドリュー・ゲルマンことで、ここで、そしてタイム誌にもこの話題に触れここに。)

最初に、1つの明確化の質問:

タイム誌は書いて、

「0.8のべき乗とは、テストされた10の真の仮説のうち、その影響がデータに反映されないため、除外されるのは2つだけであることを意味します。」

これが、教科書で見つけたべき関数の定義にどのように当てはまるかはわかりません。これは、パラメーター関数としてnullを拒否する確率ですθ。異なるとθ我々は異なる力を持っているので、私はかなり上記の引用を理解していません。

第二に、いくつかの研究の影響:

  1. 私の政治学/経済学の分野では、学者は利用可能な国年データをすべて使い果たします。したがって、ここでサンプルをいじる必要はありませんか?

  2. 複数のテストを実行して1つのモデルのみを報告するという問題は、その分野の他の誰かがあなたの論文を再テストし、堅牢な結果が得られなかったとしてすぐにあなたを打ちのめすという事実によって修正できますか?これを予測して、私の分野の学者は、robustness check複数のモデル仕様が結果を変更しないことを示すセクションを含める可能性が高くなります。これで十分ですか?

  3. Andrew Gelmanらは、データに関係なく、実際には存在しない「パターン」を見つけて公開することが常に可能であると主張している。しかし、経験に基づく「パターン」は理論によってサポートされなければならないという事実を考えると、これは問題になりません。ある分野内のライバル理論は、どのキャンプがより多くの「パターン」を見つけることができるかを見つけるために議論/競争に参加するだけです。様々な場所で。パターンが本当に疑わしい場合、他のサンプル/設定に同様のパターンがない場合、背後にある理論はすぐに打ち消されます。これが科学の進歩ではないでしょうか?

  4. 無効な結果に対するジャーナルの現在の傾向が実際に繁栄すると仮定すると、すべての無効な結果と肯定的な結果を一緒に集計し、それらすべてがテストしようとしている理論を​​推測する方法はありますか?


「心理学と物理学の理論テスト:方法論的パラドックス」も参照してください。「帰無仮説」はあなたの分野では常に偽です。適切な研究実践を行っても、有意性検定と仮説検定はおそらく不適切です。
Flask 2013年

あなたの質問1は質問3と矛盾します。polsci/ economicsでは、他に利用可能なサンプル/設定はありますか?
Flask 2013年

回答:


11

主張を評価するためにp値を使用する代わりに、Robert Abelsonのアドバイスに従い、MAGIC基準を使用する必要があります。

Magnitude
Articulation
Generality
Interestingness
Credibility

アベルソンの詳細については、彼の本の私のレビューを参照しください

そして、統計出力のp値ではなく、効果のサイズに集中する必要があります(ある種のデータマイニングを除いて、私はまったく専門家ではありません)。そして、効果の大きさは文脈で判断されます:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

統計学者/データアナリストは、p値が取得されるデータを出し入れするブラックボックスのように使用される、奇妙な人物であってはなりません。現在の理論(またはその欠如)と現在の証拠(またはその欠如)を前提として、特定の分野のコンテキストでのデータセットの意味について合理的な議論をするように設計された研究の共同研究者である必要があります。

残念ながら、このアプローチでは、実質的な研究者、データアナリスト、および誰でも結果をレビューする人(先のとがった髪のボス、論文委員会、ジャーナル編集者など)に配慮する必要があります。奇妙なことに、学者でさえこの種の考えを嫌っています。

私の見解の詳細については、Sciences360で公開された私が書い記事を次に示します。


4
+1私は間違いなくあなたに同意しますが、「私の主張はMAGICによってサポートされている」と言っても必ずしも役立つとは限らないことを想像できます:-)
Marc Claesen

1
うん、あなたはそれを綴る必要があるでしょう、しかし、あなたがそうした場合、私はそれがうまくいくかもしれないと思います:「これらは少数の例外を持つ大きな影響であり、多くの人々に影響を及ぼし、XXXXのために興味深く、彼らはXXXXのため信頼できる」うまくいくかもしれません。試してみたことはありません。:-)
ピーターフロム-モニカの回復

1
はい; クレームは、それがどのように起こり得るかを示す理論がある場合、「信頼できる」ものです。複製された場合など。物理的またはその他の理論的な説明がない場合は、信頼性が低くなります。クレームの信頼性が低いほど、それに必要な証拠が多くなります。
ピーターフロム-モニカの回復

2
@Anh科学における信頼性は、理論が理論の開発に使用されていない現象をどれだけ予測できるかによって測定されるべきです。予測が良いものであったかどうかを評価する場合、信頼性には独立した研究者による再現が必要です。有意性テストと仮説テストの両方が実際に両方の行動を妨げるように見え、その代わりに出版バイアスと任意の「有意性」カットオフの「p-ハッキング」の逆効果的な活動を奨励するように見える多くの経験的証拠があります。
フラスコ2013年

1
@Flask-弱い仮説検定を使用することが問題である以上に、p値は必ずしも問題ではないと思います。物理学もp値を使用しますが、ポイント予測につながる仮説があります(つまり、実際の帰無仮説)。「ポジティブエフェクト」を見つけることは、理論構築には基本的に役に立ちません。理論を適切に確認するには、ポイント推定を行う必要があります。
確率

3

統計科学の分野は、当初からこれらの問題に取り組んできました。私は統計学者の役割はタイプ1のエラー率が固定されたままであることを保証することであると言い続けます。これは、偽陽性の結論を出すリスクを排除することはできないが、制御することはできることを意味します。これは、一般的な統計的実践の哲学と倫理に向けてではなく、実施されている非常に大量の科学的研究に注意を向けるべきです。メディア(または政府の政策)で表面化したすべての信じられない(信じられない)結果について、少なくとも19のその他の信じられない結果が、それらの無効な発見のために撃ち落とされました。

実際、たとえばClinicaltrials.govにアクセスすると、(ほとんどすべての疾患の徴候について)現在、米国で行われている医薬品の臨床試験が1,000件を超えていることがわかります。つまり、偽陽性のエラー率が0.001の場合、平均して少なくとも1つの薬物が効果のない棚に置かれます。統計的有意性の検証済みしきい値としての0.05の有効性は、何度も挑戦されてきました。皮肉なことに、1/20の誤検出エラー率の使用に不快感を覚えるのは統計学者だけですが、金融関係者(PIまたはMerck)は、in vitroの結果、理論的証拠、または以前の証拠の強さに関係なく、根気よく信念を追求します。正直なところ、その粘り強さは、非統計的役割で成功している多くの個人の成功し、称賛に値する個人的な品質です。彼らは一般に、その粘り強さを利用する傾向のあるそれぞれのトーテムで、統計家の上に座っています。

あなたが提出したTimeの見積もりは完全に間違っていると思います。パワーは、仮説が偽の場合に帰無仮説を棄却する確率です。これは、より重要なことに、帰無仮説がどれほど「偽」であるかに正確に依存します(これは、測定可能な効果サイズに依存します)。「興味深い」と私たちが検出すると見なすであろう効果の文脈から、パワーについて話すことはめったにありません。(例えば、ステージ4の膵臓癌の化学療法治療後の4か月の生存は興味深いものではないため、フェーズ3の試験に5,000人の個人を募集する理由はありません)。

あなたが尋ねた質問に対処するため

  1. ???

  2. 多重度は、データの処理方法に関する明確な決定ルールにつながらないため、困難です。たとえば、平均差の簡単な検定に興味があるとします。私の同僚の無限の抗議にもかかわらず、t検定がデータのサンプリング分布に関係なく平均の違いを検出するように適切に調整されていることを示すのは簡単です。我々が彼らの道を交互に追跡したとしよう。彼らは、よく知られている分布テスト(たとえばqqplotのキャリブレーション)のバリアントを使用して正規性をテストすることから始めます。データが十分に非正規に見える場合、データがよく知られている変換に従うかどうかを尋ね、次にボックスコックス変換を適用して、エントロピーを最大化するべき乗変換(おそらく対数)を決定します。明らかな数値が出てきたら、彼らはその変換を使用します。そうでない場合は、「配布フリー」のウィルコクソン検定を使用します。このアドホックなイベントシーケンスでは、単純で愚かなt検定で十分だった場合に、平均差の単純な検定の較正と検出力を計算する方法を期待できなくなります。私はこのような愚かな行為がホッジの超効率的な推定に数学的にリンクされているのではないかと疑っています:私たちが真実になりたい特定の仮説の下で高出力である推定量。それにもかかわらず、このプロセスは ■超効率的な推定:特定の仮説のもとで真になりたい推定量。それにもかかわらず、このプロセスは ■超効率的な推定:特定の仮説のもとで真になりたい推定量。それにもかかわらず、このプロセスはない統計的な偽陽性誤り率が制御されていないため。

  3. ランダムなデータセットで誤って傾向を「発見」できるという概念は、おそらくマーチンのよく書かれた記事「Munchaesen's Statistical Grid」にさかのぼります。これは非常に明るい読み物であり、機械学習の黄金の子牛が私たちに現在知られているように私たちに生まれる前の1984年にさかのぼります。実際、正しく述べられた仮説は誤りである可能性がありますが、タイプ1のエラーは、データ主導型の社会において以前よりもはるかにコストがかかるようになっています。たとえば、百日咳の大量の死につながった反ワクチン研究の偽造された証拠を考えてみましょう。公衆のワクチン接種を促進した結果は単一の研究と関連してい(これは間違っていますが、外部の調査でも確認されていません)。結果を実行し、正直に善を示す証拠を報告する倫理的推進力があります。証拠はどれほど強力ですか?取得するp値とはほとんど関係がありませんが、重要だと言ったp値です。そして、最後の確認テストで何か異なることが報告された場合でも(多くの場合はるかに小さい)、データを曖昧にするとpの値が変化します。

  4. はい!Cochraneレポートなどのジャーナルによって公開されたメタ分析では、テスト結果の分布がnoramlよりも二峰性に見え、陽性と陰性の結果のみがジャーナルになっていることがわかります。このエビデンスは、臨床実務において誰にとっても完全に厄介で混乱を招くものです。代わりに、nullの結果(結果がどうなるかに関係なく、興味があったであろう研究から得られたもの)を公開する場合、メタ分析が意味のある代表的な証拠を実際に表すと期待できます。


1
行動の基礎としての確率について」で、ウィリアム・デミングは「列挙型」と「分析型」の研究を区別しています。彼は、すべての実験の結果は実験の正確な環境を条件とすることを指摘しているため、統計学者が「タイプIエラー率」を制御しようとすると、さまざまな条件下で処理が適用されると、常に未知の量だけオフになります。 。
Flask 2013年

@Flask同様に、国際宇宙ステーションでの機械的な手順は完全に調整されていませんが、エンジニアが細部に注意を払い、エラーを最小限に抑えることで、手にSpace Oddityが見つからないことが確認されました。
AdamO 2013年

エンジニアは(うまくいけば)予想されるすべての条件下でコンポーネントをテストし、生成されたモデルに基づいてエラーのマージンを追加します。これは、デミングが提唱する行動のタイプであり、1つの研究のみのサンプリングエラーの評価から、治療の将来のパフォーマンスまたは要因間の関係について結論を出そうとすることとは異なります。これは、他で言及されていない、非常に興味深い違いです。
Flask 2013年

「偽陽性のエラー率が制御されていないため、プロセスは統計的ではない」と言うのは、決して弁護できないと思います。誤り率制御の頻度よりも統計の方がはるかに多く、非頻度主義のビットは科学にとってより有用なビットです。トピックに関する私の最近発表された論文を読むことをお勧めします:arxiv.org/abs/1311.0081
Michael Lew

1
@Adamo頻度論的推論における証拠の定量化の欠如は確かにベイジアン(および尤度論者)の間で人気のある意見ですが、それは十分に検証され、頻度論的手法を考案した最初の論文でネイマンとピアソンの明示的に表明された意見でした!多分あなたは私の心を開いた心で読むべきです。情報はすべてそこにあります。
Michael Lew 2013年

3

第一に、私は統計学者ではなく、ここ数年、私の周りで使用されている観察方法がなぜそれほど欠けているのか、なぜ「 p値ですか?」私は私の視点を与えます。

まず、1つの明確化の質問:

タイム誌は書いた、

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

データ;"

これが、教科書で見つけたべき関数の定義にどのように当てはまるかはわかりません。これは、パラメーターθの関数としてnullを拒否する確率です。θが異なるとパワーが異なるため、上の引用を完全には理解していません。

検出力は、θ、分散、およびサンプルサイズの関数です。何が混乱しているのかよくわかりません。また、有意性検定が使用される多くの場合、mean1 = mean2の帰無仮説は常に偽です。これらの場合、有意性はサンプルサイズの関数のみです。Paul Meehlの「心理学と物理学の理論的テスト:方法論的パラドックス」を読んでください。多くのことが明らかになり、適切な応答を見たことがありません。Paul Meehlはこれに関する他のいくつかの論文を公開しています。彼の名前を検索すると見つかります。

私の政治学/経済学の分野では、学者は利用可能な国年データをすべて使い果たします。したがって、ここでサンプルをいじる必要はありませんか?

Simmons 2011の論文を読んだ場合、これは前述の「pハッキング」手法の1つにすぎません。データセットが1つしかなく、そこから選択的なサンプルを選択する人がいないというのが本当なら、サンプルサイズを増やす余地はないと思います。

複数のテストを実行して1つのモデルのみを報告するという問題は、専門分野の他の誰かがあなたの論文を再テストし、堅牢な結果が得られなかったとしてすぐにあなたを打ちのめすという事実によって修正できますか?これを予想して、私の分野の学者は、複数のモデル仕様が結果を変更しないことを示す堅牢性チェックセクションを含める可能性が高くなります。これで十分ですか?

公開バイアスなしで複製が行われた場合、「null結果のジャーナル」は必要ありません。堅牢性チェックのセクションは良いと思いますが、研究者がNullの結果と見なすものを公開できない場合は十分ではありません。また、同じデータに対する複数の分析手法が同じ結論に達したからといって、結果が堅牢であるとは考えません。堅牢な結果とは、新しいデータに対する影響/相関関係などを正確に予測した結果です。

複製は両方ともp <0.05になりません。理論は、最初の研究で使用されたものとは異なる効果/相関関係などを予測する場合、より堅牢であると見なされます。影響や相関の存在については言及していませんが、正確な値または可能な値の範囲と比較した小さな値の範囲について言及しています。帰無仮説が偽である場合、効果の増加/減少または正/負の相関の存在は100%真である可能性があります。Meehlを読んでください。

Andrew Gelmanらは、データに関係なく、実際には存在しない「パターン」を見つけて公開することが常に可能であると主張している。しかし、経験に基づく「パターン」は理論によってサポートされなければならないという事実を考えると、これは問題になりません。ある分野内のライバル理論は、どのキャンプがより多くの「パターン」を見つけることができるかを見つけるために議論/競争に参加するだけです。様々な場所で。パターンが本当に疑わしい場合、他のサンプル/設定に同様のパターンがない場合、背後にある理論はすぐに打ち消されます。これが科学の進歩ではないでしょうか?

研究者がnullの結果を公開できない場合、科学は適切に機能できません。また、2番目のサンプル/設定でパターンが発見されなかったからといって、最初の調査の条件下ではそのパターンが存在しなかったことを意味するわけではありません。

無効な結果に対するジャーナルの現在の傾向が実際に繁栄すると仮定すると、すべての無効な結果と肯定的な結果を一緒に集計し、それらすべてがテストしようとしている理論を​​推測する方法はありますか?

これはメタ分析になります。この場合、p値が任意のしきい値を超えていたために研究者がそれらを公開しないことを除いて、nullの結果について特別なことはありません。出版バイアスの存在下では、文献全体が出版バイアスに苦しんでいるため、メタ分析は信頼できません。メタ分析は有用な場合がありますが、理論を正確に予測してからテストするよりも、理論を評価する場合の方がはるかに劣ります。新しい予測が行き渡り、独立したグループによって再現される限り、出版バイアスはほとんど問題になりません。


時間の引用に関する私の混乱は、引用が意味するように、nullがtrueの場合にべき関数が制限されるべきではないということです。パワー関数のドメインは、私が間違っていない限り、パラメーター空間全体です。したがって、テストに割り当てることができる特定の「パワー0.8」はありません。
ハイゼンベルク

理論を新しいデータでテストする必要があるという点で私はあなたに完全に同意します。しかし、政治学やマクロ経済学の場合、私たちが非常に多くの国と長年しか持っていない場合、その努力は必然的にそのとき阻止されますか?
ハイゼンベルク

@Anh毎秒追加する新しいデータがあります。理論は未来を予測すべきです。天文学では、例えば彗星の位置を予測していました。また、予想されるパラメーター値の検出力を計算します。したがって、引用の場合、彼らは少なくともr = .5の相関を予測する理論をテストする力を参照しているでしょう。
フラスコ2013年

r = 0.5を明確にすることは、理論によって予測された相関の例です。
フラスコ2013年

2

帰無仮説検定は実際には帰無仮説についてのみであるので、私は単純にそれを置くでしょう。そして、一般的に、帰無仮説は通常関心のあるものではなく、特に回帰型の仮説テストでは、「現状のまま」ではないかもしれません。多くの場合、社会科学には現状がないため、帰無仮説は非常に恣意的である可能性があります。開始点が定義されていないため、これは分析に大きな違いをもたらします。そのため、さまざまな研究がさまざまな帰無仮説から開始されます。これをニュートンの運動の法則のようなものと比較してください。これを帰無仮説として持つことは理にかなっており、この出発点からより良い理論を見つけようとします。

さらに、p値は正しい確率を計算しません-テールにさらに移動するときに対立仮説が発生する可能性が高い場合を除き、テール確率について知りたくありません。あなたが本当に望んでいるのは、理論が実際に見られたものをどれだけうまく予測しているかです。たとえば、「軽いシャワー」の確率が50%であると予測し、競合他社が75%の確率であると予測したとします。これは正しいことが判明し、軽いシャワーが観測されます。次に、どの天気予報士が正しいかを判断するときに、「雷雨」の確率を40%与える可能性があると私の予測に追加のクレジットを与えたり、「雷雨」に0%の可能性を与えるために競合他社からクレジットを奪ったりすべきではありません。

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

どうすればいいの?ベイズ因子は、p値が小さいにもかかわらず、帰無仮説をサポートしますか?まあ、代替案を見てください-それは観測値の確率を与えました1n+1=0.00000000960.00000011

これは、ゲルマンが批判する例に特に当てはまります。実際にテストされた仮説は1つだけであり、a)代替の説明は何であるか(特に、交絡と影響が制御されていない)、b)は、以前の研究でサポートされた代替案、そして最も重要なこととして、c)ヌルと実質的に異なる(もしあれば)彼らが行う予測は何か?

H¯H1,,HKHk0.010.1

K

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.