負の二項分布の連続一般化


24

負の二項分布は非負の整数で定義され、確率質量関数

f(k;r,p)=(k+r1k)pk(1p)r.
同じ式(kN0x \ in \ mathbb R _ {\ ge 0}で置き換える)で定義された非負の実数上の連続分布を考慮することは意味がありxR0ますか?二項係数は(k + 1)\ cdot \ ldots \ cdot(k + r-1)の積として書き換えることができます(k+1)(k+r1)。これは任意の実数kに対して明確に定義されていますk。したがって、PDF
f(x;r,p)i=1r1(x+i)px(1p)r.
より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますr
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

有効な配布ですか?名前はありますか?用途はありますか?多分化合物か混合物か?平均と分散(およびPDFの比例定数)の閉じた式はありますか?

(現在、NB混合モデル(固定r=2)を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。


1
それは、ガンマとスケールパラメーター-\ log pの混合ではないでしょうlogpか?多項式Πi=1r1(x+i)すると、i=2raixi1p ^ xで乗算します。\ exp \ {x \ log p \}pxと同じです。ここで、a_iは多項式のx ^ {i-1}の係数であり、\ log p <0であるため、aに変換されるように見えます。ガンマ分布の加重平均、つまり混合。exp{xlogp}aixi1logp<0
jbowman

... 実際には、上記の合計でi=1である必要があります。
jbowman

2
以来、パラメータのみに依存し、それは比例に吸収することができる定数です。さらに、も定数を持ち、無視されます。を書くと、f(x; r、\ rho)= \ frac {\ Gammaに比例する密度を求めていることになります。 (x + r)} {\ Gamma(x + 1)} \、e ^ {-\ rho x}。これは、スケールファクターとして\ rhoを、形状パラメーターとしてrを識別します。以下のために不可欠なRそれは明らかガンマ分布の混合です。ただし、rを整数に制限しても意味がありません。 x + r 1(1p)r1/ΓRのPK=E-Kρρ=-ログP0FXRρ=Γx+r(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0ρ
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuberそうです。実際には、正の値で連続的であり、ゼロの点質量を持つ分布を使用しています。これが正しいアプローチだと思います。しかし、ゼロで非ゼロの可能性を持ち、したがって正確にゼロを処理できるように見えるNBの連続的な一般化を使用することが提案されています。したがって、私の質問。
アメーバは、モニカを復活させる

2
私はその提案にいくらか混乱があると思う:それは確率(点質量が持っているものまたはNB分布がゼロで持っているもの)と確率密度(値でなります)。ゼロ以外の密度では、値が発生する可能性がゼロであると予測されるため、正確なゼロを処理することはできません。f(0,θ)0
whuber

回答:


21

それは興味深い質問です。私の研究グループは、公開されているバイオインフォマティクスソフトウェアで、あなたが参照しているディストリビューションを数年間使用しています。私の知る限り、このディストリビューションには名前がなく、文献もありません。Aksakalが引用したChandra et al(2012)の論文は密接に関連していますが、彼らが考える分布は整数値に制限されているようで、pdfの明示的な表現を与えていないようです。r

背景を説明するために、NB分布は、RNAシーケンスおよび関連技術から生じる遺伝子発現データをモデル化するゲノム研究で非常に頻繁に使用されます。カウントデータは、各遺伝子にマッピングできる生体サンプルから抽出されたDNAまたはRNAシーケンスの読み取り数として発生します。通常、約25,000の遺伝子にマッピングされた各生体サンプルから数千万の読み取りがあります。あるいは、リードがゲノムウィンドウにマッピングされるDNAサンプルがあるかもしれません。私たちと他の人々は、NB glmsを各遺伝子の配列読み取りに適合させ、経験的ベイズ法を使用して、遺伝子ごとの分散推定量(分散ϕ=1/r)。このアプローチは、ゲノム文献の数万のジャーナル記事で引用されているため、どの程度使用されているかを知ることができます。

私のグループは、edgeR Rソフトウェアパッケージを管理しています。数年前、NB pmfの連続バージョンを使用して、小数カウントで動作するようにパッケージ全体を修正しました。NB pmfのすべての二項係数をガンマ関数の比率に変換し、(混合)連続pdfとして使用しました。これの動機は、シーケンス読み取りカウントが時々(1)トランスクリプトームまたはゲノムへの読み取りのあいまいなマッピング、および/または(2)技術的効果を修正するためのカウントの正規化のために、断片的になり得ることでした。そのため、カウントは、観測カウントではなく、予想カウントまたは推定カウントである場合があります。そしてもちろん、読み取りカウントは正の確率で正確にゼロになる可能性があります。私たちのアプローチは、ソフトウェアからの推論結果がカウントで連続的であることを保証し、推定されたカウントが偶然整数である場合に個別のNB結果と正確に一致します。

私の知る限り、pdfには正規化定数の閉じた形式はなく、平均や分散の閉じた形式もありません。積分 (Fransen-Robinson定数)に閉形式がないと考えると 、連続の積分にはあり得ないことが明らかです。いずれかのNB pdf。ただし、NBの従来の平均と分散の式は、連続NBの適切な近似値であり続ける必要があるように思われます。さらに、正規化定数はパラメーターによってゆっくりと変化する必要があるため、最尤計算で無視できる影響があるため無視できます。

01Γ(x)dz

これらの仮説は数値積分によって確認できます。NB分布は、ポアソン分布のガンマ混合としてバイオインフォマティクスで発生します(ウィキペディアの負の二項記事または以下のMcCarthyらを参照)。連続NB分布は、ポアソン分布をpdf forここでは、密度が1に積分されることを保証する正規化定数です。たとえば、と仮定します。ポアソン分布のpmfは、非負整数で上記のpdfと等しく、

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10、ポアソンの平均と分散は10に等しい。数値積分は、と連続分布の平均と分散が10から約4有効数字に等しいことを示します。したがって、正規化定数は事実上1であり、平均と分散は離散ポアソン分布の場合とほぼ同じです。連続性補正を追加して、0からではなくからに統合すると、近似はさらに改善されます。連続性補正では、すべてが正しい(正規化定数は1でモーメントは離散ポアソンに一致します)約6数字。a(10)=1/0.9998751/2

edgeRパッケージでは、条件付きの対数尤度または対数尤度の差を常に処理し、デルタ関数が計算からキャンセルされるため、ゼロに質量があるという事実を調整する必要はありません。これは、確率分布が混在するglmsの典型的なBTWです。あるいは、分布がゼロでは質量を持たず、ゼロではなく-1/2で始まるサポートがあると考えることができます。どちらの理論的観点からも、実際には同じ計算が行われます。

連続NBディストリビューションを積極的に利用していますが、明示的には何も公開していません。以下に引用する記事では、ゲノムデータに対するNBのアプローチについて説明していますが、連続的なNB分布については明示的に説明していません。

要約すると、あなたが研究している記事がNB pdfの継続バージョンから妥当な結果を得たことは驚きではありません。それは私たちの経験でもあるからです。重要な要件は、平均と分散を正しくモデリングすることであり、整数かどうかにかかわらず、データがNB分布と同じ形式の二次平均分散関係を示す場合は問題ありません。

参照資料

ロビンソン、M。、およびスミス、GK(2008)。SAGEデータへの適用を伴う、負の二項分散の小サンプル推定。生物統計学9、321-332。

ロビンソン、MD、およびスミス、GK(2007)。タグの豊富さの違いを評価するための適度な統計的テスト。バイオインフォマティクス23、2881-2887。

McCarthy、DJ、Chen、Y、Smyth、GK(2012)。生物学的変異に関する多因子RNA-Seq実験の差次的発現解析。Nucleic Acids Research 40、4288-4297。

Chen、Y、Lun、ATL、およびSmyth、GK(2014)。edgeRを使用した複雑なRNA-seq実験の差次的発現解析。In:次世代シーケンスデータの統計分析、Somnath Datta and Daniel S Nettleton(eds)、Springer、New York、51--74ページ プレプリント

Lun、ATL、Chen、Y、およびSmyth、GK(2016)。それはDE-liciousです。edgeRの準尤度法を使用したRNA-seq実験の差次的発現分析のレシピです。分子生物学の方法1418、391-416。プレプリント

Chen Y、Lun ATL、およびSmyth、GK(2016)。リードから遺伝子、経路まで:RsubreadとedgeR準尤度パイプラインを使用したRNA-Seq実験の差次的発現解析。F1000Research 5、1438。


これは非常に便利です、@ Gordon。時間をかけて書いてくれてありがとう。私はRNA-seqデータも扱っているので、この観点からの回答は特に価値があります(質問に[bioinformatics]タグを追加しました)。あなたの研究は微分発現に関するものですが、私の現在の研究はクラスタリングに関するものです(私が読んでいた論文は、CA1介在ニューロンに関するHarrisほかです; biorxiv)。とにかく、いくつかの小さな質問/説明をお願いします。[続き]
アメーバは、モニカを復活させる

log(p)r

rrr

1
@amoeba biorxiv refをありがとう。(1)ポアソンの混合物としてのNBの導出は非常によく知られており、たとえばMcCarthy et al。連続NBの導出は、ポアソンの代わりに連続ポアソンを使用するだけです。これを回答に追加する必要がありますか?長くします。連続NBがガンマの混合としてどのように有効に表されるかはわかりません。(2)いいえ、ゼロインフレは別の追加の合併症です。私たちは仕事でその複雑さを避けます。
ゴードンスミス

1
@amoeba(3)すべてのパラメーターを推定します。エラー率制御を実現するには、遺伝子ごとの分散を推定することが重要です。これは、サンプルサイズが小さいことが多く、データの次元が大きいため、特別な注意を払って行う必要があります。遺伝子間の重み付き尤度経験的ベイズ手順にリンクされた各遺伝子内の調整されたプロファイル尤度(REMLを考える)を含む複雑な手順を使用します。次に、分散が固定されたMLによってgenewise NB glmsが適合されます。最後に、係数は準尤度F検定を使用してテストされます。
ゴードンスミス

19

この論文をご覧ください:Chandra、Nimai Kumar、およびDilip Roy。負の二項分布の連続バージョン。Statistica 72、いいえ。1(2012):81

論文では、生存関数として定義されています。これは、信頼性分析で負の二項式が導入されたため、自然なアプローチです。

Srバツ={qバツために r=1k=0r1バツ+k1kpkqバツために r=23
q=eλ,λ0,p+q=1rN,r>0

ありがとう!この論文を見てみましょう。(ダウン投票したのは私ではありませんでした。)
アメーバは、モニカの復活を

@amoeba、私はダウン投票を心配しません、それはインターネットです:)
Aksakal

3
(この返信がダウン投票されたのは奇妙なことです...)+1
whuber

x

@amoeba、論文には瞬間がありますが、残念ながらNBと同じではありません
アクサカル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.