p値のQQプロットを解釈する方法


17

私はplink(http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml)と呼ばれるソフトウェアを使用して、疾患に関するGWAS SNP関連研究を行っています。

アソシエーションの結果で、分析されたすべてのSNPのp値を取得します。ここで、これらのp値のQQプロットを使用して、非常に低いp値が予想されるp値の分布(均一な分布)と異なるかどうかを示します。p値が予想される分布から外れている場合、統計的に有意なp値を「呼び出す」ことができます。

QQプロットを見るとわかるように、最後尾の最後の4つのポイントは解釈がやや困難です。灰色の最後の2つのポイントは、それらのp値がp値の予想される分布にあるのに対し、他の2つの値はそうではないことを示しています。

さて、これをどのように解釈するか、最後の2点はp値が低いが、QQプロットによると「有意」ではありませんが、p値が高い他の2点は「有意」ですか?どうしてこれが本当ですか?

ここに画像の説明を入力してください


6
QQプロットを使用してGWASを解釈する場合の問題の1つは、p値が互いに独立していないことであり、実際、最も極端なp値が相関している可能性が非常に高いことです。あなたの上位4つのヒットは同じ染色体上にあり、LDがそれらの間の相関を引き起こしているほどお互いに十分近いと思われます。SNPを条件として2番目に低いp値を与えるテストを実行すると、そのp値は例外的範囲に落ち込むと推測します。他の明らかなヒットの多くでも同じことが起こりそうです。
サムディクソン14

3
すでにそれを行ったので、独立したSNPのみを取得するためにSNPデータセットを削除しました(カットオフとして0.8のr平方を使用)。このQQプロットは、独立したSNP、またはLD <0.8のSNPの結果を示しています。
eXpander 14

1
最も低いSNPは染色体6に、2番目は染色体2に、3番目は染色体5に、4番目は染色体9に対応するため、ここでLDが問題であるかどうかはわかりません。
eXpander 14

1
そのプロットをどうやってやったのか聞いてもらえますか?私は似たようなものを得ることができますが、カイ二乗値またはp値を持ちますが、灰色の影はありません。p値と灰色の影を持つものが必要です。使用したコードを共有できれば素晴らしいと思います。ありがとう。
アレックスアルナウ

回答:


5

p値プロットの分析に関する適切なリファレンスは[1]です。

表示されている結果は、テストの一部のサブセットにのみ信号/効果が存在するという事実によって駆動される場合があります。これらは、許容帯域を超えて駆動されます。バンドの外側のp値のみを拒否することは確かに正当化できますが、おそらくより重要なことは、選択手順(FWER、FDR)を選択するときに制御するエラー基準を決定することです。その選択については[2]を参照し、適切な複数のテスト手順を選択するための参考文献を参照してください。

[1] Schweder、T。、およびE. Spjotvoll。「多数のテストを同時に評価するためのP値のプロット。」Biometrika 69、no。3(1982年12月):493–502。doi:10.2307 / 2335984。

[2]ローゼンブラット、ジョナサン。「複数のテストエラー率の実務者ガイド。」ArXiv e-print。テルアビブ大学、4月17日、2013年http://arxiv.org/abs/1304.4920


1

これは古い質問ですが、QQPlotsを初めて解釈するときに役立ちます。将来さらに多くの人がこれに出くわした場合に備えて、これらの回答に追加すると思いました。

私が理解するのが少し難しいとわかったのは、これらのポイントは正確に何ですか?コードに行くことで簡単に理解できることがわかりました。

以下はGWASTools::qqPlot、3行でQQPlotを実装するRコードです。

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

以下に例を示します。5つのp値があります。simpleQQPlotは、0と1の間の均一な分布から5つの対応するp値を生成します。これらは次のとおりです。 1. simpleQQPlotは、pvalueをソートし、それぞれを対応する生成値とペアにします。.2は最低のp値とペアになり、1は最高のp値とペアになります。次に、これらのペアの値がプロットされます(負のログを取得した後)。Xは生成されたpvalueで、Yはペアの観測値です。観測値も正規分布から取得された場合、ポイントはほぼ直線上にあるはずです。ソートのため、ポイントは常に単調に増加します。したがって、後続の各ポイントには、より大きなXとY以上のYがあります。

したがって、上記の元の例では、9,997番目にソートされたp値は約5.2でしたが、正規分布に従う場合は約4.1になると予想されていました。(注:実際に上記でプロットされたp値の数はわかりません。10kと推測されました)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.