比率の絶対変化をテストすることが目的の場合、対数変換なしで比率を直接比較できますか?


7

比率( = /)が頻繁に使用されます(mRNAまたはタンパク質発現の倍数変化、ボディマスインデックス[BMI]など)。多くの人々は、比率としてコード化された変数(たとえば、フォールドチェンジ)は、右に大きく歪んでいるため、ログ変換する必要があるとアドバイスしています。ただし、比率( /)は相対的な変化であり、比率の分布は正常ではありません(en.wikipedia.org/wiki/Ratio_distribution)。と両方が対数正規である場合、log( /)は正常です(再変換バイアスを考慮した後、 /対数正規ですか?)ZYXYXXYYXYX

対数変換された比率間の比較は、相対的な変化の相対的な変化(すなわち、比率)です。さらに、右に歪んだ変数()の対数変換の必要性が疑問視されています。たとえば、最近の論文(http://www.ncbi.nlm.nih.gov/pubmed/22806695)は、変数の対数変換の誤用について警告しています。アドバイスのいくつかは、が対数正規である場合にのみlog()が正規分布を保証するというものでした。つまり、右に歪んだ変数であっても正規性は保証されません。また、Eの抗ログ((ログ))の幾何平均(GM)である常に少ないEよりも、(()とEの差の検定YYYYYYY)とGMは異なります。最後に、GMはより堅牢でもなく、外れ値の影響を受ける可能性も低くありません。

別の論文(http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110)は、生の変数のt検定が対数正規分布変数でもうまく機能することを示しました。3番目の論文(http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8)は、比率に対するt検定と対数変換された比率に対するt検定のパフォーマンスが似ていることを示しています。

したがって、問題は、どちらが関心のある結果であるかになります。log()を意味のあるものにするには元の単位に逆変換する必要があり、再変換バイアスがあるため、E()のテストはより意味があると思います。ZZ

幸い、異分散性が考慮されると(たとえば、Welchのt検定)、パラメトリック検定(t検定など)は正規性の仮定の違反に対してロバストです。たとえば、このペーパー(http://www.ncbi.nlm.nih.gov/pubmed/24738055)では、ANOVAを使用して、イムノブロッティングにおける生の倍率変化の違いをテストすることをお勧めしています。

だから私の質問は:私の目標が比率の絶対変化をテストすることである場合、対数変換なしで比率を直接比較できますか?

参照: 線形回帰で、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか?


何か不足していますか?とが対数正規であれば、確かにも対数正規です...?XYX/Y
M Turgeon、2016年

@Turgeon:はい、log(Y / X)は正常です。しかし、再変換バイアスを考慮に入れると、Y / Xが対数正規かどうかはわかりません。ウィキペディアのページでは、このアイデアについて詳しく説明する必要があると思います。
KuJ

can I compare the ratios directly without log transformation?少なくとも次のような場合には暗黙的に、あなたがしている割合の「比較」をやって。分割表の統計を計算するときです。その公式を表す1つの方法は、。ここで、はobsです。周波数。セル内では、は、そのセルで予測される頻度に対するその比率です。したがって、表の行iとi 'の間の(二乗)カイ二乗距離を計算するときは、比率の差を計算しています:。χ2rc[OijGij]NOijGijdii=1/Nc[O.j(GijGij)2]
ttnphns

回答:


9

変換されていない比率の分布は、従来の統計分析の仮定と一致しない奇妙な形をしているだけでなく、2つの比率の違いを適切に解釈できません。余談ですが、2つの比率の違いが意味のある例を見つけた場合、比率が全体の比率を表していない場合は、そのような状況を説明してください。

統計分析で使用される変数として、比率には非対称測度であるという重大な問題があります。つまり、分母にどの値があるかが非常に重要です。この非対称性により、比率を加算または減算することはほとんど無意味になります。対数比は対称であり、加算および減算できます。

テスト統計がどのような分布を持っているかを心配したり、分布の「奇妙さ」を補正したりするのにかなりの時間を費やすことができますが、最初に適切な数学的および実用的な特性を持つ効果測定を選択することが重要です。比率は、ほとんどの場合、比率の比率またはその対数(つまり、元の測定の対数の2倍の差)をとることによって比較されることを意味します。


親愛なるフランク・ハレル教授:親切な回答ありがとうございます。質問を修正しました。2つの例:1. BMIは正常ではなく(ncbi.nlm.nih.gov/pubmed/26973438)、対数正規である場合とそうでない場合があります。そうであれば、log(BMI)は正常です。そうでない場合、log(BMI)は正常ではありません。ただし、log(BMI)はほとんど使用されません。2.タンパク質または2つの実験グループ(Y1、Y2)の遺伝子の倍率変化(Y1 / X、Y2 / X)をコントロールグループ(X)と比較します。したがって、2つの比率の違いは意味がありますが、両方の実験グループが共通のコントロールによって正規化されているため、相対的な違いは意味がありません。
KuJ 2016年

2
その論理は正しくありません。BMIが従属変数であると仮定すると、線形モデルの仮定に関して、ログに記録された場合よりもログに記録された場合のほうが適切に動作しますが、高さと初期重量に合わせて調整された重量をモデル化するほうが適切です。タンパク質発現の倍の変化が比較されるという事実は、2つの倍の変化を差し引くことを意味しません。より適切な対策は、倍率変更の比率を取ることです。正規化は、まったく別の問題です。個別の正規化ステップの実施は、統制がエラーなしで測定されることを前提としているため、統計的には良くありません。
フランクハレル2016年

1. GMは、比率または倍数変化の算術平均よりも優れているということですか(比率または倍数変化は対数正規ではなく、最初の論文で警告が出されているわけではありません)。2.このペーパー(link.springer.com/article/…)は、比率に対するt検定と対数変換された比率に対するt検定のパフォーマンスが似ていることを示しています。ありがとうございました。
KuJ 2016年

1
その論文はそのとき劇的に不正確です。log(Y / X)は数学的に対称関数であり、対数比の分布は比の分布よりもはるかに対称的です。
フランクハレル2016年

4
私はこの優れたアドバイスの一部ではないことを強調します。比率が正確に、またはほぼ対数正規であるかどうか、変換後は正確に、またはほぼ正規であるかどうかは、事前または一般的に予測することはできません。重要な点は、正の数の比率は、多くの場合、非常に歪んでいるということです。X<Y にマップする 0<X/Y<1 そして X>Y にマップする X/Y>1変換されていないデータをプロットし、モデルで使用して考えることは、ほとんどの場合、対数を使用するよりもずっと厄介です。
Nick Cox 2016年

6

@FrankHarrellからの回答、および彼と@NickCoxからの関連コメントは、見事に質問に回答しています。予測子と結果変数の生の分布の形への暗黙の焦点は見当違いであると付け加えます。線形モデリングで重要なのは、結果に対する予測子の関係と残差の分布の線形性です。

また、元の質問で引用された2つの記事について、OPが感じた困難のいくつかの原因を説明する情報を追加したいと思います。記事はたまたま公開されているので、それらを受け入れるだけでなく、批評的に評価することが重要です。

Feng et alによる対数変換の誤用について引用された論文は、対数変換で起こり得るいくつかの悪用について正しく述べていますが、対数変換はインテリジェントに使用するのではなく、回避すべきであるという印象を残す傾向があります。たとえば、紙は言う:

一般に変換を使用し、特に対数変換を使用すると、実際に目的を達成するのに非常に問題が発生する可能性があります。

次のような問題が指摘されています:

元の平均と対数変換されたデータの平均の間には1対1の関係はありません...データの変動性を変換された対応物と比較することは概念的に賢明ではありません... 2つのサンプルの平均を比較します彼らの変換されたバージョンの平均を比較することと同じではありません

そして結論:

データに適合する適切な分布や変換を見つけようとするのではなく、この古典的なパラダイムを完全に放棄することを検討するかもしれません...

その論文で指摘されている申し立てられている困難が、情報に基づく対数変換またはその他の変換の使用を回避する理由を提供しているとは思いません。他の人はその論文のより深刻な欠陥に気づきました。Bland、Altman、およびRohlfは、対数変換を防御して、直接的な応答を書きました。完全な応答が明らかにペイウォールの背後にあるが、私は次の引用符は、公正使用を構成すると考えています:

彼らは実際のデータで記事を説明していませんが、ログ変換が適用されるコンテキストを無視しているように見えます...彼らはまた、批評している人々をコンテキストから引用しています... Feng et al。また、「統計的には明確に定義されていますが、量Exp(E(log X))には直感的および生物学的な解釈はありません。」直感的には問題ありません。式は複雑に見えますが、これは単に幾何平均です。

Bland、Altman、Rohlfは次のように結論しています。

対数変換は、生物学的データと臨床データの分析に役立つツールです。私たちは、この論争の的で誤解を招く紙によって、だれもがそれを使用することを思いとどまるべきであるとは考えていません。

「ANOVAを使用してイムノブロッティングの生の倍率差(FD)の違いをテストすることをお勧めします」という論文は、「ウエスタンブロット」と呼ばれるもののデンシトメトリーを実行する上での技術的な困難のいくつかをうまく扱っています(問題は私が痛感している) 、しかし、ペーパーの最後にある「上記のステップ(2)からのFDをPRISMやAnalyze ITなどの統計分析ソフトウェアパッケージにインポートすることにより、生物学的複製の平均FDと関連するP値を決定する」 「非常に批判的なレビューを受けていないようです。(また、統計分析でFD値を対数変換する可能性も除外しません。)

生のFDを使用するという提案は、この分析が「qPCRと非常によく似た方法論」または定量的ポリメラーゼ連鎖反応であるという、この論文の前半で示した考えと実際には矛盾します。qPCRの統計分析は、「サイクルからしきい値」の値で行うのが最適です。Ct値。これらCt 値は直接 log2分析される核酸配列の元の量との関係。核酸の定量化でさらに注目すべきは、マイクロアレイ分析で広く使用されているMAプロットは、発現データの対数変換のBland-Altmanプロットです。エラーが対象の値に比例する場合、対数変換は非常に理にかなっています。


詳しい説明ありがとうございます。あなたの答えは、この問題をより明確に理解するのに役立ちます。
KuJ 2016

優れた分析。あなたが解剖した論文が発表されたことは驚くべきことです。それは不十分な議論と悪いアドバイスでいっぱいです。対数スケールで作業する方法は完全に基本的であり、すべての紹介文に含まれています。
Nick Cox

1

両方の場合 X そして Y ゼロ平均で正常な場合、比率は X/Y 密度のあるコーシー分布に従う

p(x)=1πγγ2(xx0)2+γ2

どこ x0 は、質量の中心性の尺度のような場所パラメータです。 γコーシーの標準偏差の一種である半値幅。それには平均も、分散も、より高いモーメントもありません。


Xがゼロの場合、Y / Xは未定義です。
KuJ

1
@KuJ以来 X そして Y確率変数であり、どちらか一方が正確にゼロに等しい確率はゼロです。
horaceT 2016年

平均も分散も高次モーメントもない場合、どのように統計検定を実行できますか?
KuJ 2016年

1
@KuJまったく同じ質問が出されました。stats.stackexchange.com/questions/172101/…を
horaceT
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.