それは興味深い質問です。私の研究グループは、公開されているバイオインフォマティクスソフトウェアで、あなたが参照しているディストリビューションを数年間使用しています。私の知る限り、このディストリビューションには名前がなく、文献もありません。Aksakalが引用したChandra et al(2012)の論文は密接に関連していますが、彼らが考える分布は整数値に制限されているようで、pdfの明示的な表現を与えていないようです。r
背景を説明するために、NB分布は、RNAシーケンスおよび関連技術から生じる遺伝子発現データをモデル化するゲノム研究で非常に頻繁に使用されます。カウントデータは、各遺伝子にマッピングできる生体サンプルから抽出されたDNAまたはRNAシーケンスの読み取り数として発生します。通常、約25,000の遺伝子にマッピングされた各生体サンプルから数千万の読み取りがあります。あるいは、リードがゲノムウィンドウにマッピングされるDNAサンプルがあるかもしれません。私たちと他の人々は、NB glmsを各遺伝子の配列読み取りに適合させ、経験的ベイズ法を使用して、遺伝子ごとの分散推定量(分散ϕ=1/r)。このアプローチは、ゲノム文献の数万のジャーナル記事で引用されているため、どの程度使用されているかを知ることができます。
私のグループは、edgeR Rソフトウェアパッケージを管理しています。数年前、NB pmfの連続バージョンを使用して、小数カウントで動作するようにパッケージ全体を修正しました。NB pmfのすべての二項係数をガンマ関数の比率に変換し、(混合)連続pdfとして使用しました。これの動機は、シーケンス読み取りカウントが時々(1)トランスクリプトームまたはゲノムへの読み取りのあいまいなマッピング、および/または(2)技術的効果を修正するためのカウントの正規化のために、断片的になり得ることでした。そのため、カウントは、観測カウントではなく、予想カウントまたは推定カウントである場合があります。そしてもちろん、読み取りカウントは正の確率で正確にゼロになる可能性があります。私たちのアプローチは、ソフトウェアからの推論結果がカウントで連続的であることを保証し、推定されたカウントが偶然整数である場合に個別のNB結果と正確に一致します。
私の知る限り、pdfには正規化定数の閉じた形式はなく、平均や分散の閉じた形式もありません。積分
(Fransen-Robinson定数)に閉形式がないと考えると
、連続の積分にはあり得ないことが明らかです。いずれかのNB pdf。ただし、NBの従来の平均と分散の式は、連続NBの適切な近似値であり続ける必要があるように思われます。さらに、正規化定数はパラメーターによってゆっくりと変化する必要があるため、最尤計算で無視できる影響があるため無視できます。
∫∞01Γ(x)dz
これらの仮説は数値積分によって確認できます。NB分布は、ポアソン分布のガンマ混合としてバイオインフォマティクスで発生します(ウィキペディアの負の二項記事または以下のMcCarthyらを参照)。連続NB分布は、ポアソン分布をpdf
forここでは、密度が1に積分されることを保証する正規化定数です。たとえば、と仮定します。ポアソン分布のpmfは、非負整数で上記のpdfと等しく、
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10、ポアソンの平均と分散は10に等しい。数値積分は、と連続分布の平均と分散が10から約4有効数字に等しいことを示します。したがって、正規化定数は事実上1であり、平均と分散は離散ポアソン分布の場合とほぼ同じです。連続性補正を追加して、0からではなくからに統合すると、近似はさらに改善されます。連続性補正では、すべてが正しい(正規化定数は1でモーメントは離散ポアソンに一致します)約6数字。
a(10)=1/0.999875−1/2∞
edgeRパッケージでは、条件付きの対数尤度または対数尤度の差を常に処理し、デルタ関数が計算からキャンセルされるため、ゼロに質量があるという事実を調整する必要はありません。これは、確率分布が混在するglmsの典型的なBTWです。あるいは、分布がゼロでは質量を持たず、ゼロではなく-1/2で始まるサポートがあると考えることができます。どちらの理論的観点からも、実際には同じ計算が行われます。
連続NBディストリビューションを積極的に利用していますが、明示的には何も公開していません。以下に引用する記事では、ゲノムデータに対するNBのアプローチについて説明していますが、連続的なNB分布については明示的に説明していません。
要約すると、あなたが研究している記事がNB pdfの継続バージョンから妥当な結果を得たことは驚きではありません。それは私たちの経験でもあるからです。重要な要件は、平均と分散を正しくモデリングすることであり、整数かどうかにかかわらず、データがNB分布と同じ形式の二次平均分散関係を示す場合は問題ありません。
参照資料
ロビンソン、M。、およびスミス、GK(2008)。SAGEデータへの適用を伴う、負の二項分散の小サンプル推定。生物統計学9、321-332。
ロビンソン、MD、およびスミス、GK(2007)。タグの豊富さの違いを評価するための適度な統計的テスト。バイオインフォマティクス23、2881-2887。
McCarthy、DJ、Chen、Y、Smyth、GK(2012)。生物学的変異に関する多因子RNA-Seq実験の差次的発現解析。Nucleic Acids Research 40、4288-4297。
Chen、Y、Lun、ATL、およびSmyth、GK(2014)。edgeRを使用した複雑なRNA-seq実験の差次的発現解析。In:次世代シーケンスデータの統計分析、Somnath Datta and Daniel S Nettleton(eds)、Springer、New York、51--74ページ プレプリント
Lun、ATL、Chen、Y、およびSmyth、GK(2016)。それはDE-liciousです。edgeRの準尤度法を使用したRNA-seq実験の差次的発現分析のレシピです。分子生物学の方法1418、391-416。プレプリント
Chen Y、Lun ATL、およびSmyth、GK(2016)。リードから遺伝子、経路まで:RsubreadとedgeR準尤度パイプラインを使用したRNA-Seq実験の差次的発現解析。F1000Research 5、1438。