DNA配列決定のための負の二項分布のフレーミング


16

負の二項分布は、バイオインフォマティクスのカウントデータ(具体的には、特定の実験からのゲノムの特定の領域内で予想されるシーケンスリードの数)の一般的なモデルになりました。説明は異なります:

  • ポアソン分布のように機能するものの、追加のパラメーターがあり、必ずしも平均と等しくない分散で、真の分布をより自由にモデル化できるものとして説明する人もいます
  • ポアソン分布の重み付き混合として説明する人もいます(ポアソンパラメーターにガンマ混合分布がある)

特定の数の失敗を見る前にベルヌーイ試行の成功の数をモデル化するような負の二項分布の伝統的な定義でこれらの理論を二乗する方法はありますか?それとも、ポアソン分布とガンマ混合分布の重み付き混合が負の二項分布と同じ確率質量関数を持っているという幸福な偶然と考えるべきでしょうか?


2
また、ポアソン分布数の対数ランダム変数を合計する複合ポアソン分布です。
ダグラスザーレ

回答:


8

IMOH、負の二項分布は便宜上使用されていると本当に思います。

そのため、RNA Seqでは、無限の数の複製で同じ遺伝子の無限の数の測定を行う場合、真の分布は対数正規分布になるという一般的な仮定があります。次に、この分布はポアソンプロセス(カウント付き)でサンプリングされるため、複製全体の遺伝子ごとの真の分布読み取りはポアソン対数正規分布になります。

しかし、EdgeRやDESeqなどのパッケージでは、この分布は負の二項分布としてモデル化されています。これは、それを書いた人たちがポアソン対数正規分布について知らなかったからではありません。

それは、ポアソン対数正規分布は、適合などを行うために数値積分を必要とするため、使用するのが恐ろしいことだからです。

負の二項分布は閉じた形であるため、操作がはるかに簡単であり、ガンマ分布(基礎となる分布)は対数正規分布によく似ています。

しかし、この例(仮定を信じている場合)では、理論的に正しい分布はポアソン対数正規分布であり、2つの分布は互いに合理的な近似であるが同等ではないため、理論的に正しいことはできません。

しかし、積分がゆっくり実行され、フィットが特にロングテールの分布で悪い結果になる可能性があるため、経験的にはより良い結果が得られるため、「間違った」負の二項分布がしばしばより良い選択だと思います。


7

いくつかのWebページを調べて説明を見つけることができませんでしたが、整数値について説明しました。アルファとベータの粒子をそれぞれとレートで個別に生成する2つの放射能源があるとします。α βrαβ

番目のベータ粒子の前のアルファ粒子の数の分布は何ですか?r

  1. アルファ粒子を成功と見なし、ベータ粒子を失敗と見なします。粒子が検出された場合、それがアルファ粒子である確率はです。したがって、これは負の二項分布です。 NBRααα+βNBrαα+β

  2. 番目のベータ粒子の時間を考えます。これは、ガンマ分布従いますを条件にすると、時間前のアルファ粒子の数はポアソン分布ますしたがって、番目のベータ粒子の前のアルファ粒子の数の分布は、ガンマ混合ポアソン分布です。 R Γ R 1 / β T R = λ / α T RのPOI λ rtrrΓr1/βtr=λ/αtrポアλr

それが、これらの分布が等しい理由を説明しています。


2

私は直観のみを提供できますが、ガンマ分布自体は(連続的な)待機時間(まれなイベントが発生するまでにどのくらい時間がかかりますか)を表します。したがって、ガンマ分布の離散ポアソン分布の混合が離散待機時間(N個の失敗までの試行)になるという事実は、それほど驚くべきことではありません。誰かがより正式な答えを持っていることを願っています。

編集:私は常に負の二項分布を正当化しました。以下のようにシーケンスします。実際のシーケンス手順は、分子の大きなライブラリ(ポアソン)から読み取り値をサンプリングするだけです。ただし、そのライブラリはPCRによって元のサンプルから作成されます。つまり、元の分子は指数関数的に増幅されます。また、ガンマ分布は、k個の独立した指数関数的に分布したランダム変数の合計、つまり、同じPCRサイクル数でk個のサンプル分子を増幅した後のライブラリ内の分子数を表します。

したがって、負の二項モデルはPCRの後に配列決定を行います。


それは理にかなっていますが、ゲノム内のシーケンシングリードの数を測定する文脈において、負の二項分布の待機期間が何を表すのか直感的な説明はありますか?この場合、待機期間はありません-彼はシーケンス読み取りのカウントを測定しているだけです。
ロバートF

編集をご覧ください。待機時間の観点から考えると、シーケンス設定にどのように適合するかわかりません。ガンマポアソン混合物は解釈が容易です。しかし、最終的には同じものです。
フェリックスシュレシンガー

2
わかりました-本当の問題は、ベルヌーイ試験でのk成功+ r失敗のモデリングがガンマポアソン混合にどのように一致するかです。たぶん、負の二項モデルk成功+ r失敗は、成功試行と失敗試行の多くの可能な順列により、正確にk観測された成功とr観測された失敗をもたらす過分散ポアソンdbnと考えることができます。別のdbns?
ロバートF

2

これについて考えるとき、私は便利だと思った単純化した機械論的解釈をしようとします。

ライブラリーの準備前にゲノムの完全に均一なカバレッジがあり、平均してサイトをカバーする読み取りを確認したとします。シーケンスは、元のDNAフラグメントを選択し、PCR、サブサンプリングなどを行う確率的プロセスを経て、頻度のフラグメントから塩基を導き出し、そうでない場合は失敗するプロセスであるとします。シーケンスが失敗まで続く場合、負の二項分布でモデル化できます。P μ 1 - Pμp NBμ1-Pμ1ppNBμ1ppp

この分布のモーメントを計算すると、必要な成功数が得られます。成功数の分散については、 -フラグメントのライブラリー準備が失敗する割合は、観測されたカバレッジの分散を増加させます。μ1ppp1p=μσ2=μ1p1

上記はシーケンシングプロセスのわずかに人為的な説明であり、PCRステップなどの適切な生成モデルを作成することもできますが、過分散パラメーターの起源についての洞察が得られると思います負の二項分布から直接。私は、一般的な説明としてレートが統合されたポアソンモデルを好みます。1p1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.