遺伝子重複レベルによる濃縮分析


11

生物学的背景

時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。

顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。

そして今、数学的問題:

ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。

以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

私がやりたいのは、遺伝子機能ごとに、重複する遺伝子がルピナスとバプティシアで偶然に予想されるよりも多いか少ないか、およびルピナスがバプティシアと観察されたものと期待されたものの比率が異なるかどうかをテストすることです。

これまでで最高のもの

さまざまな種に関するこれまでの研究では、フィッシャーの正確確率検定とFDR補正を使用した濃縮分析を複数のサンプリングに使用して、各行で偶発性検定を行っていました。

これを改善するとよいでしょう。これが最良の方法のように聞こえるかどうかはわかりません。

Glen_bは、GLMを使用してデータを分析することを提案しています。私はJMP8でGLMをいじってみましたが、それは興味深いものでしたが、実際にはそれらを理解していません。

そうは言っても、今は代わりにRを使用しようとしています。

これは何のために使うのですか?

これは当初、私が大学で行っている短い研究プロジェクトの一部として想定されていましたが、今では巨大なゲノム注釈プロジェクトにまで広がっています。どうして?バイオインフォマティクスはクールだからです。A、T、C、Gの文字列を取得し、それを使用して数百万年前に発生したイベントに関する情報を推測できることは素晴らしいことです。

言うまでもなく、親切な回答を自分の作品として提出するつもりはありません。提出された論文でここに提案された方法を使用した場合、私は論文に謝辞を含めたいと思います。


1
他の重要な変数がある場合に1つの変数に対してのみテストすることについて(前述のSimpson's Paradoxに関するWikipediaの記事を指摘しました)、他の質問に対する以前の回答で述べた問題に注意してください -フィッシャーの正確なテストはそれを回避しません。
Glen_b-2012

バイオインフォマティクスかっこいい!! サイトへようこそ!
カイル。

私は戻ってきて、より広範囲な答えをすぐに返しますが、Rで調べる適切な関数は、loglin、loglm(Rに付属しているが、デフォルトではインストールされていないMASSパッケージ内)、およびglmです。これらのモデルの理解は理解重回帰とANOVAに類似の多くを持つことになります-分布が正常でないことの例外を除いて、およびログ・オブ・手段のモデルは、線形いるものです。
Glen_b -Reinstateモニカ

回答:


1

ここではフィッシャーのテスト(または類似のテスト)が最も自然なアプローチであることに同意しますが、これについてはどうですか。

  1. 固有の遺伝子ごとに、LとBの重複数の違いを決定します
  2. この違いで遺伝子を並べ替えます。これで、種間のほとんどの違いを示す遺伝子がリストの一番上に表示されます。
  3. 順序付けられた遺伝子のリストに遺伝子セット濃縮テストを適用します。たとえば、私のパッケージtmodから変更されたフィッシャーのメソッドを使用できます。これには、遺伝子セットを定義する必要があります(非常に簡単です)。フィッシャーの方法はフィッシャーの検定とは関係がないことに注意してください。

変更されたフィッシャーの検定(このコンテキストで最初に説明した著者によってCERNOと呼ばれます)は、いくつかの有用なカテゴリーにグループ化できる限り、遺伝子の任意の順序付きリストを入力として受け取ります。

このアプローチの利点は、p値とは別に、濃縮の効果サイズを簡単に計算して視覚化できることです(たとえば、遺伝子の順序付きリストのROC曲線として)。これは、観察することが実際に研究する生物学にとってどれほど重要であるかについて、はるかに優れたアイデアを提供します。


0

あなたが言うように、あなたは2つの異なる質問をしています。

質問1「特定の遺伝子機能について、L * / L1 +の比率はB * / B1 +と異なりますか」

これは、以前に見つけた行全体のデータを使用したフィッシャーの正確検定で最もよく答えられる可能性があります。

質問2「比率:単一のコピーがある遺伝子/複数のコピーがある遺伝子、遺伝子機能間で異なるのですか?」

これもフィッシャーの正確確率検定で最もよく答えられると思います。遺伝子機能1のL * / L1 +と遺伝子機能2のL * / L1 +の比率をテストします。次に、遺伝子機能1と遺伝子機能3を比較します。

これらの一連の質問はどちらも、純粋に偶然に予想よりも速く維持/削除されているかどうかを知るのではなく、互いに異なるレートで削除/維持されているかどうかについてのみです。それらが偶然とは異なる速度で削除/維持されているかどうかを知るには、偶然の影響のみを受けている多くのDNA領域のシングルコピー/マルチコピーの比率を知る必要があります。そのような領域が見つかると、関数が「なし」である「関数グループ」が作成されます。次に、質問2で説明したのと同じ方法で、これを他の遺伝子機能グループと比較します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.