FDR手順では、基本レートのモデルなしで偽発見率をどのように推定しますか？

9

誰かがFDR手順で、真の陽性率のベースレートのモデル/仮定なしにFDRを推定する方法を説明できますか？

false-discovery-rate

5

それは本当に良い質問だと思います。Benjamini-Hochbergプロシージャ（略してBH、おそらくFDRを制御するための最も一般的なプロシージャ）をブラックボックスとして使用する人が多すぎます。実際、それは統計に基づいている根本的な仮定があり、p値の定義にうまく隠されています！

明確に定義されたp値場合、帰無仮説の下では、は均一に分布している（）とれます。場合によっては、、つまりが一様よりも確率的に小さいこともありますが、これにより手順がより保守的になります（したがって、依然として有効です）。したがって、p値を計算し、t検定または実際に選択した任意の検定を使用して、帰無仮説のもとで分布に関する情報を提供します。 $P$ $P$ $P\sim U[0,1]$ $\Pr[P\leq t] \leq t$ $P$

しかし、ここで私が帰無仮説について話し続けたことに注意してください。そのため、真陽性の基本率の知識についてあなたが言及したことは必要ありません。偽陽性の基本率の知識だけが必要です！どうしてこれなの？

ましょすべて拒否された（正）の仮説との数表す、その後、偽陽性を： $R$ $V$

FDR = E [\frac{V}{max (R, 1)}] \approx \frac{E [V]}{E [R]}

$\text{FDR} = \mathbb E\left[\frac{V}{\max(R,1)}\right] \approx \frac{\mathbb E[V]}{\mathbb E[R]}$

したがって、FDRを推定するには、、を推定する方法が必要です。次に、すべてのp値を拒否する決定規則を見ていきます。表記法でこれを明確にするために、そのようなプロシージャの対応する数量/ランダム変数のも記述します。 $\mathbb E[R]$ $\mathbb E[V]$ $\leq t$ $FDR(t),R(t),V(t)$

以来拒否の総数の単なる予想である、あなたはunbiasedlyあなたが観察拒否の数でそれを推定することができるので、つまり、単純に、p値のいくつがかを数えることによって。 $\mathbb E[R(t)]$ $\mathbb E[R(t)] \approx R(t)$ $\leq t$

では、どうでしょうか？まあ仮定あなたの後、均一で、帰無仮説されている（またはサブ均一性）あなたが得るヌル下のp値の合計仮説を： $\mathbb E[V]$ $m_0$ $m$

E [V (t)] = \sum_{i null} Pr [P_{i} \leq t] \leq m_{0} t

$\mathbb E[V(t)] = \sum_{i \text{ null}} \Pr[P_i \leq t] \leq m_0 t$

しかし、まだませんが、であることはわかっているため、控えめな上限はます。したがって、誤検知の数の上限が必要なだけなので、分布を知っていれば十分です。そして、これはまさにBHプロシージャが行うことです。 $m_0$ $m_0 \leq m$ $\mathbb E[V(t)] \leq m t$

したがって、「BH手順はFDRを特定のレベルqで制御する方法である。FDRを推定することではない」というAarong Zengのコメントは誤りではありませんが、誤解を招く可能性もあります。BHプロシージャは、実際には、所定のしきい値ごとにFDRを推定します。そして、推定FDRが下回るように、最大のしきい値を選択します。実際、仮説の「調整されたp値」は、基本的に、しきい値（等張化まで）でのFDRの推定にすぎません。標準のBHアルゴリズムはこの事実を少し隠していると思いますが、これら2つのアプローチの等価性を示すのは簡単です（多重テストの文献では「等価性定理」とも呼ばれています）。 $t$ $\alpha$ $i$ $t=p_i$

最後に、データからさえ推定するStoreyの手順などの方法が存在します。これにより、電力を少し増やすことができます。また、原則的にはあなたが正しいです。より強力な手順を得るために、代替（実際の正の基本レート）の下で分布をモデル化することもできます。しかし、これまでのところ、複数のテストの研究は主に、電力を最大化するのではなく、タイプIエラーの制御を維持することに焦点を当ててきました。1つの困難は、多くの場合、真の代替案のそれぞれが異なる代替分布（たとえば、異なる仮説に対して異なる検出力）を持つ一方で、nullの下ではすべてのp値が同じ分布になることです。これにより、真の陽性率のモデリングがさらに困難になります。 $m_0$

— 空気
ソース

3

+1おそらく「BH」はベンジャミニ・ホッホベルクを指します。（誤解しないように、頭字語を書くことは常に良い考えです。）私たちのサイトへようこそ！

— whuber

1

ありがとう！また、そうです、私はそれを反映するために私の投稿を編集しました。

— 放映

4

@airで提案されているように、Benjamini-Hochberg（BH）手順はFDR制御を保証します。推定するものではありません。したがって、テスト統計間の依存関係の仮定が弱いだけです。[1,2]

FDR [eg 3,4,5]の推定を目的とする方法では、FDRを推定するために生成プロセスにいくつかの仮定が必要です。彼らは通常、テスト統計が独立していると仮定します。彼らはまた、テスト統計のヌル分布について何かを仮定します。したがって、このヌル分布からの逸脱は、独立性の仮定とともに、影響に起因する可能性があり、FDRが推定される場合があります。

これらのアイデアは、半教師付きノベルティ検出の文献に再び登場することに注意してください。[6]。

[1] Benjamini、Y。、およびY. Hochberg。「誤検出率の制御：複数のテストへの実用的で強力なアプローチ。」ジャーナルロイヤルスタティスティカルソサイエティシリーズB 57（1995）：289–289。

[2] Benjamini、Y。、およびD. Yekutieli。「依存関係下での複数のテストにおける誤った発見率の制御。」ANSTATS OF STATISTICS 29、いいえ。4（2001）：1165–88。

[3] JD Storey、「偽の発見率への直接的なアプローチ。」英国王立統計協会シリーズB 64のジャーナル、いいえ。3（2002）：479–98。doi：10.1111 / 1467-9868.00346。

[4]エフロンB.「マイクロアレイ、経験的ベイズおよび2グループモデル」統計科学23、いいえ。1（2008）：1–22。

[5]ジン、嘉順、およびT.トニーカイ。「大規模な多重比較におけるヌルと非ヌル効果の割合の推定。」Journal of the American Statistical Association 102、いいえ。478（2007年6月1日）：495–506。doi：10.1198 / 016214507000000167。

[6]クレセン、マーク、ジェシーデイビス、フランクデスメット、バートデムーア。「正のラベルなしデータのみを使用してバイナリ分類子を評価する。」arXivの：1504.06837 [CS、統計]、4月26日、2015 http://arxiv.org/abs/1504.06837。

— ジョンロス
ソース

1

その段落の私の主なポイントは+1ですが、BH手順は実際には FDRを推定する方法を示唆している（少し控えめではありますが）、実際には FDRを推定して最終的な拒否のしきい値に到達するとしています。参考文献[1]のステップアップ手順としてのアルゴリズムの定義はこれを覆い隠していますが、1日の終わりにFDRの推定はまさにBH手順が行うことです!! （エフロンはその点をよく指摘しますが、参考文献[3]のセクション4「2つのアプローチ間の関係」も参照してください。）

— air

2

[3、Eq.2.5]に従って、BH手順がでのFDRの控えめな推定を使用しているように見えるかもしれません。

p_{0} = 1

$p_0=1$

— JohnRos、2015年

0

真の基礎となるモデルが不明な場合、FDRを計算することはできませんが、順列検定によってFDR値を推定できます。基本的に、順列検定手順は、結果変数ベクトルをその順列で変更することにより、仮説検定を複数回実行するだけです。サンプルの順列に基づいて行うこともできますが、前者ほど一般的ではありません。

紙ここでは、 FDR推定のための標準的な順列の手順をレビューし、また新たなFDR推定器を提案しました。それはあなたの質問に対処できるはずです。

— アーロン・ゼン
ソース

3

BHのような最も一般的な手順では、置換テストを使用しません。何を使用していますか？また、置換テストは通常、nullの下での分布を提供します。FDRの見積もりでは、nullと代替の両方のモデル、およびそれぞれの基になる相対比率が必要ではありませんか？

— user4733 2014年

まず、BHプロシージャは、FDRを指定されたレベルで制御する方法です。FDRを推定することではありません。次に、順列検定はすべての仮説の帰無で行われます。「ヌルとオルタナティブの両方のモデルと、それぞれの根本的な相対的比率が必要」という意味がわかりません。しかし、仮説を立てると、すでにヌルと代替のペアがあります。これは理にかなっていますか？

q

$q$

— アーロンZeng