でゲノムワイド関連研究(GWAS):
- 主成分は何ですか?
- なぜ使用されるのですか?
- それらはどのように計算されますか?
- PCAを使用せずにゲノムワイド関連研究を行うことはできますか?
でゲノムワイド関連研究(GWAS):
回答:
この特定の状況では、PCAは主に、調査中のSNP(または私はSNPの事例に精通しているが、他のDNAマーカー)の対立遺伝子分布の集団固有の変動を説明するために使用されます。このような「母集団の下部構造」は、主に遺伝的に遠い祖先(たとえば、日本人と黒人アフリカ人または欧米人)のマイナーアレルの頻度の変化の結果として生じます。一般的な考え方は、Patterson et al。のPopulation Structure and Eigenanalysisで詳しく説明されています。(PLoS Genetics 2006、2(12))、またはLancetの遺伝疫学に関する特別号(2005、366;ほとんどの記事はWebで見つけることができ、Cordell&Clayton、Genetic Association Studiesから始まります)。
主軸の構築は、PCAへの古典的なアプローチから始まります。PCAは、観察された遺伝子型(AA、AB、BB;すべての場合でBがマイナーアレルであると言う)のスケーリングされたマトリックス(SNPによる個体)に適用されます人口ドリフトを説明する追加の正規化が適用される場合があります。すべては、マイナーアレルの頻度({0,1,2}の値を取る)が数値と見なせることを前提としています。つまり、アディティブモデル(アレル用量とも呼ばれます)または意味のある同等のモデルの下で動作します。。連続する直交PCが最大分散を説明するため、これにより、マイナーアレル頻度のレベルで異なる個人のグループを強調表示することができます。これに使用されるソフトウェアはEigenstratとして知られています。また、egscore()
GenABEL Rパッケージの関数(GenABEL.orgも参照)。人口下部構造を検出する他の方法、特にモデルベースのクラスター再構成が提案されたことに注意する価値があります(最後の参考文献を参照)。詳細については、Hapmapプロジェクトを参照するか、Bioconductorプロジェクトから入手可能なチュートリアルを参照してください。(Vince J CareyまたはDavid ClaytonのGoogleでの素晴らしいチュートリアルを検索してください)。
部分集団のクラスタリングとは別に、このアプローチは、2つのケース(AFAIK)で発生する可能性のある外れ値を検出するためにも使用できます。 )、予期しない遺伝子型を示す個人。この場合に通常行われるのは、PCAを繰り返し適用し、最初の20の主軸のうち少なくとも1つでスコアが SD 未満の個人を削除することです。これは、ある意味でサンプルを「白くする」ことになります。遺伝子型距離のこのような測定(PCAの代わりに多次元スケーリングを使用する場合も同様です)により、親や兄弟を見つけることができます。PLINKソフトウェアは、上のセクションを参照、追加のメソッドを提供人口成層を オンラインヘルプで。
固有分析により、個人レベルで何らかの構造を明らかにできることを考慮して、特定の表現型(または疾患やケースコントロールなどのバイナリ基準に従って定義される可能性のある分布で観測される変動を説明するときに、この情報を使用できます。状況)。具体的には、Price et al。による主成分分析がゲノムワイド関連研究の層別化を修正するに示されているように、それらのPC(つまり、個人の因子スコア)で分析を調整できます。(Nature Genetics 2006、38(8))、およびそれ以降の研究(ヨーロッパの遺伝子の地理学を反映したヨーロッパの遺伝的変異の軸を示す素晴らしい写真がありました;ヨーロッパの自然 2008; 以下に再現された図1A)。また、別の解決策は層別分析を実行することであることに注意してください(GLMに民族性を含める)。これは、たとえばsnpMatrixパッケージで簡単に利用できます。
参照資料