負の二項GLM対カウントデータのログ変換:タイプIエラー率の増加


18

あなたの何人かはこの素晴らしい論文を読んだかもしれません:

O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック

私の研究分野(生態毒性学)では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara&Kotze(2010)と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。

電力シミュレーション

1つのコントロールグループ()と5つの治療グループ()を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照()と同一であり、治療2-5の存在量は対照の存在量の半分()でした。シミュレーションでは、サンプルサイズ(3,6,9,12)とコントロールグループの量(2、4、8、...、1024)を変化させました。豊度は、固定分散パラメーター()を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμ15μ1=μcμ25=0.5μcθ=3.91

結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。 ここに画像の説明を入力してください コードはこちらです。

タイプIエラー

次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量()。μc=μ15

ただし、結果は予想どおりではありません。 ここに画像の説明を入力してください 負の二項GLMは、LM +変換と比較して大きなタイプIエラーを示しました。予想どおり、サンプルサイズが大きくなると、差はなくなりました。 コードはこちらです。

質問:

lm + transformationと比較してType-Iエラーが増加するのはなぜですか?

不十分なデータ(サンプルサイズが小さく、存在量が少ない(ゼロが多い))の場合、lm + transformationを使用する必要がありますか?このような実験では、サンプルサイズが小さい(処理あたり2〜4)のが一般的であり、簡単に増やすことはできません。

しかし、否定。置き場。GLMはこのデータに適切であると正当化できます。lm+変換により、タイプ1のエラーを防ぐことができます。


1
あなたの主な質問への答えではなく、読者が注意すべきことです。2つの手順で実際のタイプIエラーを同等にしない限り、力を比較することは意味がありません。タイプIのエラーを解除することで、低い方(この場合はログを取得して通常のものに合わせる)のパワーを常に高くすることができます。一方、特定の状況(サンプルサイズ、存在量)を指定すると、タイプIのエラーレート(シミュレーションなど)を取得できるため、目的のタイプIのエラーレートを達成するためにテストする公称レートを算出できます。 、それらのパワーは同等になります。
グレン_b-モニカの復活14

プロットのy軸の値は、100個のデータセット全体で平均化されていますか?
シャドウトーカー14

コメントを明確にする必要があります。統計が本質的に離散的な場合、タイプIのエラー率を完全に制御することはできませんが、一般的にタイプIのエラー率を非常に近くすることができます。比較できるほど十分に近づけることができない状況では、それらを比較可能にする唯一の方法は、無作為化されたテストを使用することです。
-Glen_b-モニカを復活14

α

1
n

回答:


17

これは非常に興味深い問題です。コードを確認しましたが、すぐに明らかなタイプミスは見つかりません。

θθdrop1

線形モデルのほとんどのテストでは、帰無仮説の下でモデルを再計算する必要はありません。これは、対立仮説のみでパラメーター推定と推定共分散を使用して、幾何学的勾配を計算し(スコア検定)、幅を近似することができるためです(ワルド検定)。

負の二項関数は線形ではないため、nullモデルを近似する必要があると思います。

編集:

私はコードを編集し、次のものを得ました: ここに画像の説明を入力してください

ここで編集されたコード:https : //github.com/aomidpanah/simulations/blob/master/negativeBinomialML.r


しかし、私はそれがだと思うdrop1() 内部...ヌルモデルを再フィット
ベンBolker

4
glm.nbθdrop1logLikgetS3method('logLik', 'negbin'

もう一度+1したいのですが、できません。いいね
ベンボルカー14

ありがとう!私は両方のコードを見てdrop1()lrtest()。あなたは正しい、間違った逸脱を与えるdrop1.glm使用glm.fit。で使用できないことを知らなかっdrop1()glm.nb()
EDi 14

それで、典型的なスコアとWald検定は、負の二項モデルでは無効ですか?
シャドウトーカー14

8

オハラとコッツェの論文(Methods in Ecology and Evolution 1:118–122)は、議論の出発点としては適切ではありません。私の最も深刻な懸念は、要約のポイント4の主張です。

を除き、変換のパフォーマンスが低いことがわかりました。。..準ポアソンおよび負の二項モデル... [示した]少しのバイアス。

λθλ

λ

次のRコードはポイントを示しています。

x <- rnbinom(10000, 0.5, mu=2)  
## NB: Above, this 'mu' was our lambda. Confusing, is'nt it?
log(mean(x+1))
[1] 1.09631
log(2+1)  ## Check that this is about right
[1] 1.098612

mean(log(x+1))
[1] 0.7317908

または試す

log(mean(x+.5))
[1] 0.9135269
mean(log(x+.5))
[1] 0.3270837

パラメータが推定されるスケールは非常に重要です!

λ

標準診断はlog(x + c)のスケールでより適切に機能することに注意してください。cの選択はあまり重要ではありません。多くの場合、0.5または1.0が理にかなっています。また、Box-Cox変換、またはBox-CoxのYeo-Johnsonバリアントを調査するためのより良い開始点です。[Yeo、I. and Johnson、R.(2000)]。Rの自動車パッケージのpowerTransform()のヘルプページを参照してください。Rのgamlssパッケージにより、負の二項タイプI(一般的な多様性)またはII、または分散(平均)をモデル化する他の分布を、0(= log、つまり対数リンク)以上のパワー変換リンクで適合させることができます。近似は常に収束するとは限りません。

例:死亡対ベースダメージ データは、米国本土に到達した大西洋のハリケーンの名前です。R用のDAAGパッケージの最近のリリースからデータが利用可能です(名前hurricNamed)。データのヘルプページに詳細があります。

ロバストな対数線形対負の二項近似

グラフは、ロバスト線形モデル近似を使用して取得した近似直線と、ログリンクを使用した負の二項近似をグラフのy軸に使用するlog(count + 1)スケールに変換することによって取得した曲線を比較します。(正のcを持つlog(count + c)スケールに似たものを使用して、同じグラフに負の二項近似からのポイントと近似「ライン」を表示する必要があることに注意してください。)対数スケールでの負の二項近似で明らかです。カウントに対して負の二項分布を仮定すると、このスケールではロバストな線形モデルの当てはまりがはるかに小さくなります。線形モデルの適合は、古典的な標準理論の仮定の下で不偏になります。本質的に上記のグラフであるものを最初に作成したとき、私は驚くべきバイアスを見つけました!曲線はデータによりよく適合し、しかし、違いは通常の統計的変動の標準の範囲内です。堅牢な線形モデルの適合は、スケールの下限でのカウントに対してはうまく機能しません。

注--- RNA-Seqデータを使用した研究: 2つのスタイルのモデルの比較は、遺伝子発現実験からのカウントデータの分析に興味があります。次の論文では、log(count + 1)で動作するロバスト線形モデルの使用と、負の二項近似の使用(BioconductorパッケージedgeRのように)を比較します。主に念頭に置いているRNA-Seqアプリケーションのほとんどのカウントは、適切に重み付けされた対数線形モデルの近似が非常にうまく機能するのに十分な大きさです。

Law、CW、Chen、Y、Shi、W、Smyth、GK(2014)。Voom:精密ウェイトにより、RNA-seq読み取りカウント用の線形モデル分析ツールのロックが解除されます。ゲノム生物学15、R29。http://genomebiology.com/2014/15/2/R29

NBも最近の論文:

Schurch NJ、Schofield P、Gierliski M、Cole C、Sherstnev A、Singh V、Wrobel N、Gharbi K、Simpson GG、Owen-Hughes T、Blaxter M、Barton GJ(2016)。RNA-seq実験で必要な生物学的複製はいくつありますか?また、どの差次的発現ツールを使用すべきですか?RNA http://www.rnajournal.org/cgi/doi/10.1261/rna.053959.115

興味深いことに、limmaパッケージ(WEHIグループのedgeRなど)を使用した線形モデルの適合は、複製の数が多いため、多くの複製の結果に比べて(バイアスの証拠がほとんどないという意味で)非常に優れています。減少。

上のグラフのRコード:

library(latticeExtra, quietly=TRUE)
hurricNamed <- DAAG::hurricNamed
ytxt <- c(0, 1, 3, 10, 30, 100, 300, 1000)
xtxt <- c(1,10, 100, 1000, 10000, 100000, 1000000 )
funy <- function(y)log(y+1)
gph <- xyplot(funy(deaths) ~ log(BaseDam2014), groups= mf, data=hurricNamed,
   scales=list(y=list(at=funy(ytxt), labels=paste(ytxt)),
           x=list(at=log(xtxt), labels=paste(xtxt))),
   xlab = "Base Damage (millions of 2014 US$); log transformed scale",
   ylab="Deaths; log transformed; offset=1",
   auto.key=list(columns=2),
   par.settings=simpleTheme(col=c("red","blue"), pch=16))
gph2 <- gph + layer(panel.text(x[c(13,84)], y[c(13,84)],
           labels=hurricNamed[c(13,84), "Name"], pos=3,
           col="gray30", cex=0.8),
        panel.text(x[c(13,84)], y[c(13,84)],
           labels=hurricNamed[c(13,84), "Year"], pos=1, 
           col="gray30", cex=0.8))
ab <- coef(MASS::rlm(funy(deaths) ~ log(BaseDam2014), data=hurricNamed))

gph3 <- gph2+layer(panel.abline(ab[1], b=ab[2], col="gray30", alpha=0.4))
## 100 points that are evenly spread on a log(BaseDam2014) scale
x <- with(hurricNamed, pretty(log(BaseDam2014),100))
df <- data.frame(BaseDam2014=exp(x[x>0])) 
hurr.nb <- MASS::glm.nb(deaths~log(BaseDam2014), data=hurricNamed[-c(13,84),])
df[,'hatnb'] <- funy(predict(hurr.nb, newdata=df, type='response'))
gph3 + latticeExtra::layer(data=df,
       panel.lines(log(BaseDam2014), hatnb, lwd=2, lty=2, 
           alpha=0.5, col="gray30"))    

2
ご意見ありがとうございます。過去2年間に、さらにいくつかの論文がありました(仮説検定に焦点を当ててからバイアス):Ives 2015、Warton et al 2016、Szöcs2015.
EDi

この特定の点に問題があるとしても、議論の出発点としては良いでしょうか?(より一般的には、これは偏りにあまり焦点を当てるのではなく、RMSEのようなものを検討する理由であると主張します... [免責事項、最近これらの論文を読み直したことはありません。ウォートン紙...]
ベンボルカー

1
Warton et al(2016)のポイントは、データプロパティが選択の根拠であるべきだということは重要です。変位値-変位値プロットは、近似の詳細を比較するための良い方法です。特に、アプリケーションによっては、どちらか一方または両方の極端なフィットが重要になる場合があります。ゼロインフレモデルまたはハードルモデルは、ゼロカウントを正しく取得するための効果的な改良方法です。上限では、議論中のモデルのいずれかがひどく危険にさらされる可能性があります。ウォートンらは、立派に、1つの例を持っています。幅広い生態学的データセットの比較を見たいです。
ジョンマインドナルド

しかし、生態学的データセットでは、下部の種(=希少種)は興味深いものではありませんか?いくつかの生態学的データセットをコンパイルして比較するのはそれほど難しくないはずです
...-EDi

実際、負の二項モデルは、ハリケーンによる死亡データについては、満足度が最も低いと思われるのは、損傷カテゴリの下限です。Rのgamlssのパッケージには、簡単にデータのcentilesを装備分布のcentilesを比較することができます機能があります:
ジョンMaindonald

6

元の投稿には、Tony Ivesの論文:Ives(2015)が反映されています。重要度テストがパラメーター推定に異なる結果を与えることは明らかです。

ジョン・メインドナルドは、推定値が偏っている理由を説明しますが、彼の背景の無知は迷惑です-彼は、私たち全員が同意する方法に欠陥があることを示すために私たちを批判します。多くの生態学者が盲目的にログ変換を行い、それを行う際の問題を指摘しようとしていました。

ここにはさらに微妙な議論があります:Warton(2016)

Ives、AR(2015)、回帰係数の有意性をテストするために、カウントデータを対数変換します。メソッドEcol Evol、6:828–835。doi:10.1111 / 2041-210X.12386

Warton、DI、Lyons、M.、Stoklosa、J. and Ives、AR(2016)、カウントデータのLMまたはGLMテストを選択する際に考慮すべき3つのポイント。メソッドEcol Evol。土井:10.1111 / 2041-210X.12552


CVへようこそ。有用ではありますが、この応答はほとんどが「リンクのみ」タイプの回答です。リンクは変更およびリンク解除されます。それぞれの重要なポイントを詳しく説明すると、CVにとってより役立つでしょう。
マイクハンター

回答ありがとうございます。Warton et al。の論文は 議論の現在の状態を作り出します。
-EDi

ありがとう&ようこそ!参照を完全に追加する自由を取りました。
Scortchi-モニカの復職

1
新しいリファレンスで作成されている主なポイントの概要を説明してください。また、意味がある場合は、それらを元の質問に関連付けてください。これは貴重な貢献ですが、現時点では、質問への回答(たとえば、リンクのコンテキストを提供する必要があります)よりも別の回答に対するコメントに近いです。コンテキストのいくつかの追加の文章は、投稿を大幅に助けます。
Glen_b-モニカを

3
具体的には、私のコメントは、O'Hara and Kotzeの論文のポイント4について述べています。シミュレーションは、非常に正のスキュー分布であるy(スケール)の予想平均とlog(y + c)のスケールの予想平均との比較に関するコメントです。負の二項パラメータlambdaはyのスケールで不偏であり、対数正規平均はlog(y + c)のスケールで(そのスケールの正規性の下で)不偏です。
ジョンマインドナルド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.