ゲノムワイド関連研究では、主成分は何ですか?


20

ゲノムワイド関連研究(GWAS):

  1. 主成分は何ですか?
  2. なぜ使用されるのですか?
  3. それらはどのように計算されますか?
  4. PCAを使用せずにゲノムワイド関連研究を行うことはできますか?

1
これらの質問をする前に、このサイトで「PCA」を検索したか、「PCA」タグを調べましたか?あなたの質問の大部分はすでに回答済みです。
whuber

1
@whuber OPは、特定の結果(継続的な表現型またはケース/コントロール研究)およびDNAマーカー(SNP)をモデル化する際に、母集団の層別化を考慮および調整する方法としてPCAの使用を探していると思います。stats.stackexchange.com/questions/1708/variation-in-pca-weights/…を参照しました
-chl

1
GWASは確かに主要なコンポーネントなしで実行できます。母集団の階層化がない場合、必要なのは、数千の検定または数千のカイ二乗検定です。t
ワンストップ

@onestop(+1)2番目の質問に回答したと思いますが、私自身の回答では考慮しませんでした。
-chl

@onestop、性別/人種のみで階層化する場合はどうなりますか?あなたの答えを詳しく説明してください。
-suprvisr

回答:


27

この特定の状況では、PCAは主に、調査中のSNP(または私はSNPの事例に精通しているが、他のDNAマーカー)の対立遺伝子分布の集団固有の変動を説明するために使用されます。このような「母集団の下部構造」は、主に遺伝的に遠い祖先(たとえば、日本人と黒人アフリカ人または欧米人)のマイナーアレルの頻度の変化の結果として生じます。一般的な考え方は、Patterson et al。のPopulation Structure and Eigenanalysisで詳しく説明されています。(PLoS Genetics 2006、2(12))、またはLancetの遺伝疫学に関する特別号(2005、366;ほとんどの記事はWebで見つけることができ、Cordell&Clayton、Genetic Association Studiesから始まります)。

主軸の構築は、PCAへの古典的なアプローチから始まります。PCAは、観察された遺伝子型(AA、AB、BB;すべての場合でBがマイナーアレルであると言う)のスケーリングされたマトリックス(SNPによる個体)に適用されます人口ドリフトを説明する追加の正規化が適用される場合があります。すべては、マイナーアレルの頻度({0,1,2}の値を取る)が数値と見なせることを前提としています。つまり、アディティブモデル(アレル用量とも呼ばれます)または意味のある同等のモデルの下で動作します。。連続する直交PCが最大分散を説明するため、これにより、マイナーアレル頻度のレベルで異なる個人のグループを強調表示することができます。これに使用されるソフトウェアはEigenstratとして知られています。また、egscore()GenABEL Rパッケージの関数(GenABEL.org参照)。人口下部構造を検出する他の方法、特にモデルベースのクラスター再構成が提案されたことに注意する価値があります(最後の参考文献を参照)。詳細については、Hapmapプロジェクトを参照するBioconductorプロジェクトから入手可能なチュートリアルを参照してください。(Vince J CareyまたはDavid ClaytonのGoogleでの素晴らしいチュートリアルを検索してください)。

部分集団のクラスタリングとは別に、このアプローチは、2つのケース(AFAIK)で発生する可能性のある外れ値を検出するためにも使用できます。 )、予期しない遺伝子型を示す個人。この場合に通常行われるのは、PCAを繰り返し適用し、最初の20の主軸のうち少なくとも1つでスコアが SD 未満の個人を削除することです。これは、ある意味でサンプルを「白くする」ことになります。遺伝子型距離のこのような測定(PCAの代わりに多次元スケーリングを使用する場合も同様です)により、親や兄弟を見つけることができます。PLINKソフトウェアは、上のセクションを参照、追加のメソッドを提供人口成層を±6 オンラインヘルプで。

固有分析により、個人レベルで何らかの構造を明らかにできることを考慮して、特定の表現型(または疾患やケースコントロールなどのバイナリ基準に従って定義される可能性のある分布で観測される変動を説明するときに、この情報を使用できます。状況)。具体的には、Price et al。による主成分分析がゲノムワイド関連研究の層別化を修正するに示されているように、それらのPC(つまり、個人の因子スコア)で分析を調整できます。(Nature Genetics 2006、38(8))、およびそれ以降の研究(ヨーロッパの遺伝子の地理学を反映したヨーロッパの遺伝的変異の軸を示す素晴らしい写真がありました;ヨーロッパの自然 2008; 以下に再現された図1A)。また、別の解決策は層別分析を実行することであることに注意してください(GLMに民族性を含める)。これは、たとえばsnpMatrixパッケージで簡単に利用できます。

遺伝子はヨーロッパの地理を反映している

参照資料

  1. Daniel Falush、Matthew Stephens、およびJonathan K Pritchard(2003)。多座遺伝子型データを使用した集団構造の推定:連鎖遺伝子座と相関対立遺伝子頻度遺伝学、164(4):1567-1587。
  2. BデブリンとKローダー(1999)。関連研究のためのゲノム管理バイオメトリクス、55(4):997-1004。
  3. JK Pritchard、M Stephens、およびP Donnelly(2000)。多座の遺伝子型データを使用して、人口構造の推定遺伝学、155(2):945–959。
  4. Gang Zheng、Boris Freidlin、Zhaohai Li、およびJoseph L Gastwirth(2005)。さまざまな遺伝モデルの下での関連研究のゲノムコントロールバイオメトリクス、61(1):186–92。
  5. Chao Tian、Peter K. Gregersen、Michael F. Seldin1(2008)。祖先の説明:集団の下位構造とゲノムワイド関連研究ヒト分子遺伝学、17(R2):R143-R150。
  6. Kai Yu、全ゲノム関連研究における母集団の部分構造とコントロールの選択
  7. Alkes L. Price、Noah A. Zaitlen、David Reich、Nick Patterson(2010)。ゲノムワイド関連研究における集団層別化の新しいアプローチNature Reviews Genetics
  8. チャオ・ティアン他 (2009)。ヨーロッパの集団遺伝的部分構造:多様なヨーロッパの民族グループを区別するための先祖情報マーカーのさらなる定義、分子医学、15(11-12):371–383。

どうもありがとうございました。当然、さらに多くの質問が続きます。1)PCAを無視し、GWDERサンプルをGENDER / RACE / AGEのみで階層化し、PCAを無視するとどうなりますか。それは私の関連分析とその結果をどのように反映しますか?2)実際にPCAを使用したい場合、少なくとも真実のPCAを得るためにジェノタイピングされたSNPSの数はいくつですか?200で十分ですか?それらはすべての染色体に均等に分散する必要がありますか?3)PCAで使用されているSNPはどれですか?これは事前定義されたセットですか?
-suprvisr

@suprvisrすぐに回答するか、回答を更新できますが、新しい質問(「PCAで調整することの長所と短所」の考え方に沿った質問)を行い、この質問にリンクすることをお勧めします。必要な接続を明確に行うことができます。
-chl

@AndyFrostは、以下の図が参照されている可能性があることを示唆しました:goo.gl/jNXx0xおよび参照できる画像はgoo.gl/TcK3g8にある可能性があります
GUNG -復活モニカ

@chlこのことの意味を説明してください:「この場合、通常行われるのは、PCAを反復的に適用し、最初の20人のプリンシパルのうち少なくとも1人でスコアが±6±6 SD未満の個人を削除することです。軸」。私の投稿に対する回答を探していました:biostars.org/p/180336
MAPK
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.