特徴選択のための中央値研磨の使用


9

最近読んでいた論文で、データ分析セクションで次のビットに出くわしました。

次に、データテーブルを組織とセルラインに分割し、2つのサブテーブルを個別に中央値研磨(行と列を繰り返し調整して中央値0にする)してから、単一のテーブルに再結合しました。最後に、テストされた3つ以上のサンプルで、このサンプルセットの中央値から少なくとも4倍に発現が変化する遺伝子のサブセットを選択しました。

ここでの推論にはあまり従わないと言わざるを得ません。次の2つの質問に答えていただけないでしょうか。

  1. データセットの中央値を調整することが望ましい/役立つのはなぜですか?異なる種類のサンプルに対して別々に行う必要があるのはなぜですか?

  2. これはどのように実験データを変更しないのですか?これは、大量のデータから多数の遺伝子/変数を選択する既知の方法ですか、それともアドホックですか?

おかげで、


あなた/彼らが見ているデータの種類について詳しく説明できますか?あなたが引用したものから判断すると私は思う-私にとって-メソッドは非常にその場しのぎのようです。
suncoolsu 2011年

@suncoolsu:概念に精通している場合は、マイクロアレイデータです。そうでない場合、おそらくそれを次のように要約できます。研究したサンプルでどの遺伝子がどの程度発現しているか。より良い説明は次のとおりです:en.wikipedia.org/wiki/Gene_expression_profiling
posdef '14 / 03/11

@suncoolsuほとんど間違いなく遺伝子発現分析データ。
kriegar

はい、わかりませんでした。次世代シーケンシングも人気を博しています。
suncoolsu

回答:


10

Tukey Median Polish、アルゴリズムはマイクロアレイのRMA正規化に使用されます。ご存知かもしれませんが、マイクロアレイデータは非常にノイズが多いため、すべてのプローブとマイクロアレイの観測を考慮して、プローブの強度を推定するより堅牢な方法が必要です。これは、アレイ全体のプローブの強度を正規化するために使用される典型的なモデルです。

I = 1 ... I

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

ここで、はアレイ上のプローブの変換されたPM強度です。はバックグラウンドノイズであり、通常の線形回帰のノイズに対応すると想定できます。ただし、分布の仮定は制限的な場合があるため、Tukey Median Polishを使用してとの推定値を取得します。これは、アレイの効果から信号、プローブによる強度を分離するため、アレイ全体で正規化する強力な方法です。配列効果正規化することで信号を取得できます L O G I T H jのT H ε I J ε ^ μ I ^ α J α ^ α JYijlogithjthϵijϵμi^αj^ααj^すべてのアレイ用。したがって、プローブ効果とランダムノイズだけが残ります。

前に引用したリンクでは、Tukeyの中央値研磨を使用して、プローブ効果でランク付けすることにより、差異的に発現する遺伝子または「興味深い」遺伝子を推定しています。しかし、論文はかなり古く、おそらく当時は人々はまだマイクロアレイデータを分析する方法を理解しようとしていました。エフロンのノンパラメトリックな経験的ベイズ法の論文は2001年に発表されましたが、おそらく広く使用されていなかった可能性があります。

しかし、今ではマイクロアレイについて(統計的に)多くを理解しており、それらの統計分析についてはかなり確信しています。

マイクロアレイデータはかなりノイズが多く、RMA(中央値ポーランド語を使用)は最も一般的な正規化方法の1つですが、その単純さのためかもしれません。その他の一般的で洗練された方法は、GCRMA、VSNです。関心はプローブ効果でありアレイ効果ではないため、正規化することが重要です。

ご想像のとおり、この分析は、遺伝子間での情報の借用を利用するいくつかの方法によって恩恵を受けることができました。これらには、ベイズ法または経験的ベイズ法が含まれる場合があります。あなたが読んでいる紙が古くて、これらの技術がそれまで出ていなかったかもしれません。

2つ目のポイントについては、はい、おそらく実験データを変更しています。しかし、私は、この修正はより良い原因のためであり、それゆえ正当化できると思います。その理由は

a)マイクロアレイデータはかなりうるさいです。関心がプローブ効果である場合、RMA、GCRMA、VSNなどによるデータの正規化が必要であり、データ内の特別な構造を利用するのが良いでしょう。しかし、私は2番目の部分を行うことは避けます。これは主に、事前に構造がわからない場合は、多くの仮定を課さない方がよいためです。

b)ほとんどのマイクロアレイ実験は本質的に探索的です。つまり、研究者はさらなる分析または実験のために、いくつかの「興味深い」遺伝子のセットに絞り込もうとしています。これらの遺伝子が強いシグナルを持っている場合、正規化のような変更は最終的な結果に(実質的に)影響を与えるべきではありません。

したがって、変更は正当化される場合があります。ただし、正規化をやり過ぎると誤った結果が生じる可能性があることに注意してください。


+1これは私の試みよりもはるかに良い答えです。ありがとう。
クリーガー

@posdef。論文の統計分析に関与した統計家はいたのだろうか。
suncoolsu 2011年

徹底的な返信ありがとうございます。これが前処理ステップであるという事実は、この論文では十分に説明されていない(またはよく知られていると想定されている)と思います。そういえば、この論文は2000年に(Natureで)公開されているので、執筆に関わらなかったとしても、少なくとも統計学者に彼らの方法を見てもらったと思います。しかしもちろん、私は推測することしかできません.. :)
posdef

@posdef。わかりました。多くの質問に答えます。2000年は人々がまだマイクロアレイデータを分析する方法を考え出していた時期でした。FDRは当時は派手ではありませんでした:-)
suncoolsu

4

あなたはこれの 4ページと5ページにいくつかの手がかりを見つけるかもしれません

yi,j=m+ai+bj+ei,j
maibjei,j

maibj

中央値を使用する利点は、少数の外れ値に対する堅牢性です。不利な点は、外れ値がない場合、潜在的に有用な情報を捨てることです。


aibjei,j

ni,j=niqj+ei,jlog(ni,j)=log(n)+log(pi)+log(qj)+ei,j

@ヘンリー「外れ値」がない場合、中央値研磨で「捨てられる」情報(および、とにかく「外れ値」によって正確に何を意味するか)ですか。結局のところ、グランドメジアン、行と列のメジアン、および残差を使用して、データを正確に再構築できます。これらはすべて、中央値研磨の出力を構成します。残差が破棄されることを意味する場合、「平均研磨」(OLSと同等)とは、この点でどのような違いがありますか?
whuber

@whuber:残差はどちらの場合でも保持されます。平均研磨は、観測値が中心からどれだけ離れているかを考慮します(ある意味では、それは残差の重みのバランスをとります)中央研磨は、それらが中心の上または下のどちらにあるかを見るだけです(ある意味では、残差の数)。したがって、中央値を中心として使用する場合、重量情報は使用されません。これは、かなりの重み/残差の一部が非常に疑わしいので、センターの結果が信頼できない場合に適していますが、信頼できない場合は情報を使用しません。
Henry

@ヘンリー研磨から元のデータをすべて復元できる場合、「情報」は「使用」されないのはなぜですか。ところで、磨きの中央値はあなたが説明しているように振る舞いません:その残差はデータのランクではなくの違いです。
whuber

3

遺伝子差次的発現分析のある論文を読んでいるようです。マイクロアレイチップに関連するいくつかの調査を行ったので、中央値研磨の使用に関するほとんどの知識(うまくいけば正しい)を共有できます。

マイクロアレイ前処理の要約ステップ中に中央値研磨を使用することは、完全一致プローブのみのチップ(少なくともRMAの場合)で異常値のデータを取り除く標準的な方法の一部です。

マイクロアレイデータの中央値は、行と列としてチップ効果とプローブ効果がある場所です。

xチップ上の各プローブセット(n個の同じプローブで構成):

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

ここで、ivは強度値です

プローブの強度にはばらつきがあるため、マイクロアレイデータのほとんどすべての分析は、要約の前に何らかのバックグラウンド補正と正規化を使用して前処理されます。

以下は、中央研磨と他の方法の使用について説明しているbioCメーリングリストスレッドへのリンクです。

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

細胞を培養すると、それらの発現プロファイルが収集された組織サンプルから劇的に変化するため、組織と細胞株のデータは通常別々に分析されます。より多くの論文がなければ、サンプルを個別に処理することが適切であったかどうかを判断することは困難です。

分析パイプラインの正規化、バックグラウンド補正、および要約のステップはすべて実験データの変更ですが、未処理の状態では、チップ効果、バッチ効果、処理効果により、分析用の信号に影が付きます。これらのマイクロアレイ実験は、結果を確認するためのフォローアップ実験(qPCRなど)の候補となる遺伝子のリストを生成します。

アドホックである限り、遺伝子が差次的に発現していると見なされるにはどの倍の差が必要かを5人に尋ねると、少なくとも3つの異なる答えが得られます。


回答の更新に感謝します。今、アイデアが出始めていると思います。では、私が正しく理解していれば、中央値の研磨を使用して、プローブとチップに関する技術的なばらつきを評価しますか?...実験が合計される前に、さまざまな条件下での遺伝子の発現値を保持する行列が1つまで合計されますか?
posdef 2011年

はい、私の理解から@posdef。チップ上の各プローブセット(同じシーケンスのプローブ)には、プローブが散らばっています。チップのいくつかの疑似画像については、plmimagegallery.bmbolstad.com。単一チップ内の変動性に加えて、チップ間の変動性があります。技術的なばらつきがあるため、生の強度値に対してアルゴリズムが実行され、プローブセットの単一の「式の値」が取得されます。これらの値のマトリックスは、遺伝子が異なる条件下で差次的に発現されるかどうかを決定するために適合されます。
クリーガー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.