生物学的背景
時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。
顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。
そして今、数学的問題:
ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。
以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
私がやりたいのは、遺伝子機能ごとに、重複する遺伝子がルピナスとバプティシアで偶然に予想されるよりも多いか少ないか、およびルピナスがバプティシアと観察されたものと期待されたものの比率が異なるかどうかをテストすることです。
これまでで最高のもの
さまざまな種に関するこれまでの研究では、フィッシャーの正確確率検定とFDR補正を使用した濃縮分析を複数のサンプリングに使用して、各行で偶発性検定を行っていました。
これを改善するとよいでしょう。これが最良の方法のように聞こえるかどうかはわかりません。
Glen_bは、GLMを使用してデータを分析することを提案しています。私はJMP8でGLMをいじってみましたが、それは興味深いものでしたが、実際にはそれらを理解していません。
そうは言っても、今は代わりにRを使用しようとしています。
これは何のために使うのですか?
これは当初、私が大学で行っている短い研究プロジェクトの一部として想定されていましたが、今では巨大なゲノム注釈プロジェクトにまで広がっています。どうして?バイオインフォマティクスはクールだからです。A、T、C、Gの文字列を取得し、それを使用して数百万年前に発生したイベントに関する情報を推測できることは素晴らしいことです。
言うまでもなく、親切な回答を自分の作品として提出するつもりはありません。提出された論文でここに提案された方法を使用した場合、私は論文に謝辞を含めたいと思います。