個々の研究者は、誤発見率をどのように考えるべきですか？

30

私は、False Discovery Rate（FDR）が個々の研究者の結論をどのように知らせるべきかについて頭をかき回そうとしています。たとえば、研究の能力が不足している場合、有意であったとしても結果を割り引く必要がありますか？注：複数のテスト修正の方法としてではなく、複数の研究の結果を総合的に検討するという文脈でFDRについて話している。 $\alpha = .05$

（多分寛大な）の仮定を作るテストの仮説が実際に真であるが、FDRは、タイプIの両方の関数であり、次のようにIIエラー率を入力します。 $\sim.5$

FDR = \frac{α}{α + 1 - β} .

$\text{FDR} = \frac{\alpha}{\alpha+1-\beta}.$

ある研究が十分な能力を持たない場合、十分な能力のある研究の結果と同様に、結果が有意であっても、結果を信頼すべきではないことは理にかなっています。したがって、一部の統計学者が言うように、「長期的に」、従来のガイドラインに従えば、誤った多くの重要な結果を公開する可能性がある状況があります。研究の一貫性が一貫して不十分な研究によって特徴づけられている場合（例えば、過去10年間の候補遺伝子環境相互作用の文献）、複製された重要な発見でさえ疑われる可能性があります。 $\times$

Rパッケージを適用するとextrafont、ggplot2とxkcd、私はこれが有効として概念かもしれないと思うの視点の問題： 重要な結果...

よくわからない...

この情報を与えられた場合、個々の研究者は次に何をすべきでしょうか？私が勉強している効果の大きさを推測している場合（したがって、サンプルサイズを考慮して推定値）、FDR = .05までレベルを調整する必要がありますか？私の研究が十分ではなく、FDRの考慮を文献の消費者に委ねる場合でも、レベルで結果を公開する必要がありますか？ $1 - \beta$ $\alpha$ $\alpha = .05$

これは、このサイトと統計文献の両方で頻繁に議論されているトピックであることは知っていますが、この問題に関する意見の一致を見つけることができないようです。

編集： @amoebaのコメントに応じて、FDRは標準のタイプI /タイプIIエラー率分割表から導出できます（そのさをご容赦ください）。

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

したがって、重要な調査結果（列1）が提示された場合、実際にそれが偽である可能性は、列の合計に対するアルファです。

$(1 - \beta)$

FDR = \frac{α \cdot (1 - prior)}{α \cdot (1 - prior) + (1 - β) \cdot prior}

$\text{FDR} = \frac{\alpha \cdot (1- \text{prior})}{\alpha \cdot (1- \text{prior}) + (1-\beta) \cdot \text{prior}}$

— リチャード・ボーダー
ソース

それはあなたの質問に対する明確な答えを与えないかもしれませんが、このテキストにインスピレーションを見つけるかもしれません。

— JohnRos

1

リンク先のDavid Colquhounの論文は、ごく最近ここで議論されています（@DavidColquhounが議論に参加しています）。

— アメーバは、モニカーを復活させる

2

α

$\alpha$

β

$\beta$

2

p = 0.5

$p=0.5$

p

$p$

p = 0

$p=0$

prior = 1

$\text{prior}=1$

1

$1$

1

α

$\alpha$

6

$p$

代わりに、パワーレベルや重要な結果を無視して、すべての研究にアクセスできるようにすることが重要です。実際、重要な結果のみを公開し、重要でない結果を隠すという悪い習慣は、公開バイアスにつながり、科学的結果の全体的な記録を破壊します。

そのため、個々の研究者は、再現可能な方法で研究を実施し、そのような詳細が出版ジャーナルから求められていない場合でも、すべての記録を保持し、すべての実験手順を記録する必要があります。彼は低電力についてあまり心配するべきではありません。情報価値のない結果（=帰無仮説が棄却されない）であっても、十分な品質のデータを提供できる限り、さらなる研究のために推定量を追加します。

$p$ $p$ $p$

— ホルストグリュンブッシュ
ソース

ホルスト、あなたは尋ねられたのとは異なる質問に答えているようです。

— アレクシス

1

問題は研究間のFDRについてであり、研究内ではないことに注意してください。これには、適切な意思決定の許容可能な全体的な割合を得るために、ある種のベイジアンアプローチが含まれます。私の答えは、全体的な判断はむしろ決定ではなく研究データと推定値を集約することによって行われることを強調しているので、単一の研究のデータ（決定ではなく）が信頼できる限り、問題は巨大な「仮想研究」を作成することで解決します。

— ホルストグリュンブッシュ

6

$\alpha$ $\alpha=.05$

$\alpha$

$p<0.05$ $p\approx 0.05$ $p$ $p\ll 0.05$ $p$ -valueは再び小さくなります）。

$\alpha$

— アメーバはモニカを復活させると言う
ソース

5

これは実際には深い哲学的な質問です。私は研究者であり、これについてはしばらく考えていました。しかし、答えの前に、偽発見率が何であるかを正確に確認しましょう。

FDR対P Pは、差がまったくなく、パワーを考慮に入れていない場合に、差があると言う確率の単なる尺度です。一方、FDRは電力を考慮に入れています。ただし、FDRを計算するためには、真の肯定的な結果を受け取る可能性はどれくらいかという仮定を立てる必要があります。これは、非常に不自然な状況を除いて、決してアクセスできないものです。私が最近行ったセミナーで実際にこれについて話しました。スライドはこちらにあります。

これは、David Colquhounのトピックに関する論文の図です。

カルフーン2014

誤検出率は、偽陽性の数を真陽性と偽陽性の合計で割ることによって計算されます（例では、495 /（80 + 495）x 100％= 86％！

Pについてもう少し

私の講義のスライドをよく見てください。P値は分布から引き出されるという事実について説明しました。つまり、常に誤検出を発見する可能性があります。したがって、統計的有意性は絶対的な真実と考えるべきではありません。統計的に重要なものは、「ここに何か面白いものがあるかもしれない、よくわからない、誰かが二重チェックをする！」と解釈されるべきだと私は主張する。したがって、研究における再現性の基本的な概念！

どうしようか？ さて、上の図と私のPおよびFDRの分析に関する興味深い点は、明確な理解を達成できる唯一の方法は、1）再現性と2）すべての結果を公開することです。これには、否定的な結果が含まれます（否定的な結果を解釈するのは困難ですが）。ただし、結果から得た結論は適切でなければなりません。残念ながら、多くの読者と研究者はPとFDRの概念を完全に理解していません。結果を適切に分析するのは読者の責任だと思います...つまり、最終的には教育者の負担になります。結局のところ、「有病率」（上の図を参照）が0の場合、P値0.000000001は無意味です（その場合、誤検出率は100％になります）。

出版研究者として、あなたの結果を完全に理解し、あなたが望んでいるだけ強い主張をするよう注意してください。特定の研究のFDRが86％であることが判明した場合（上記の例のように）、解釈について非常に注意する必要があります。一方、FDRがあなたの快適さのために十分に小さい場合....まだあなたの解釈に注意してください。

ここですべてが明確になったことを願っています。それは非常に重要な概念であり、議論を持ち出してくれてうれしいです。ご質問/懸念事項などがある場合はお知らせください。

— ジャスタナザーブレイン
ソース

1

@Alexis圧倒されるような研究はありません！効果のサイズに気づいている限り、より大きなサンプルサイズのスタディを使用することで、効果のサイズをより厳密に定義できることに害はありません。「圧倒的」という概念は、観測されたデータを見ずにP値を調べることで有用な推論を行うことができるという空の概念に結びついているように思えます。

— マイケルルー

1

@MichaelLew：推定効果サイズとp値を常に考慮すると、圧倒的な問題を（部分的に）解決できることは正しいです。ただし、これは、p値の目的を少し無効にします。タイプIのエラー率が正しいように、効果推定器をバイナリテスト結果「効果あり/なし」にマッピングします。また、p値を見ると、関連するエフェクトサイズがどのようなものであるかを判断することが変わる場合があります。アレクシスが示唆したように、実際には、関連する効果範囲を事前に指定して問題を解決し、その後それを研究CIと比較することが最善です。

— ホルストグリュンブッシュ

1

θ

$\theta$

1

ある程度...私は統計的推論の観点から厳密に話をしていましたが、あなたは研究デザインの論理と科学的知識を生み出すオントロジーについてもっと話しています。とはいえ、プロトコルなどに注意を払って解釈されない肯定的な発見は、否定的な発見と同じくらい偽りである可能性が高いと感じています。宇宙のすべての現象が単独で研究できるわけではないため（たとえば、個人と集団の健康は同時に化学的、社会的、行動的など）、そのような複雑なシステムの研究には存在論的不確実性が伴います。

— アレクシス

2

@HorstGrünbusch元の質問は、P値ではなくアルファとベータを扱うため、ハイブリッドコンテキストで設定されているとは思いません。ただし、justanotherbrainの答えは、Neyman＆Pearsonフレームワークまたは有意性テストフレームワークのいずれかにのみ配置するには、慎重に再作業する必要があります。偽発見率は、実際には前者にのみ属します。

— マイケルルー

3

関係を理解しやすくするために、さまざまなべき乗（alpha = 0.05）の事前確率の関数としてFDRのこのグラフを作成しました。このグラフに注意してください。@ Buckminsterの方程式は、Pがアルファより小さいすべての結果のFDRを計算します。1つの研究で偶然に観察したP値に非常に近いP値のみを考慮した場合、グラフは異なって見えます。

— ハーベイ・モトゥルスキー
ソース

2

ここにシャイニーアプリバージョンがあります（ただし少し異なります）：buckminster.shinyapps.io/FalseDiscoveryRate

— リチャードボーダー

1

出版を提案することは決定です。この決定に関連する利益と費用とは何かを研究する価値があると思います。

1）学術的環境は、研究者をより多くの出版物に普遍的に押し付け、出版物のさまざまなランキングがこの記録にも影響すると考えた。権威のあるジャーナルほど、より堅牢な品質チェックが行われると推測できます（そうすることを望みます）。

2）大量の出版物に関連する社会的費用が発生する可能性があります。これらのリソースは、結果を公表しない応用研究のように、他のどこかでより適切に使用される可能性があります。最近、膨大な量の新しい出版物が大量にあるため、多くの出版物が情報源として重要ではないという出版物がありました... :)

http://arxiv.org/pdf/1503.01881v1.pdf

個々の研究者にとって、より多くの論文を発表するためには、品質を受け入れられるレベルに保つために、個々の人々に依存しない制度化された品質チェックが必要だと思います。

いずれにせよ、パラメーター値はファクトではありません。これらの値には、結果が本当におよび/または誤って重要な場合に公開される結果の数に関連するさまざまなコストと利点を考慮して値を与える必要があります。

— アナリスト
ソース