対数変換応答を伴う線形モデルと対数リンクを伴う一般化線形モデル


46

、この論文著者が書いた「一般化線形モデルAPPLIED TO医療データの中から選択する」というタイトル:

一般化線形モデルでは、応答自体を変換する代わりに、リンク関数によって平均が変換されます。変換の2つの方法は、まったく異なる結果につながる可能性があります。たとえば、 対数変換された応答の平均は、平均応答の対数と同じではありません。一般に、前者は簡単に平均応答に変換できません。したがって、平均値を変換すると、特に平均パラメーターが測定された応答と同じスケールのままであるという点で、結果をより簡単に解釈できることがよくあります。

彼らは、対数変換応答を持つ線形モデル(LM)ではなく、対数リンクを持つ一般化線形モデル(GLM)のフィッティングを勧めているようです。私はこのアプローチの利点を理解していませんが、私には非常に珍しいようです。

応答変数は対数正規分布に見えます。どちらのアプローチでも、係数と標準誤差の点で同様の結果が得られます。

それでも私は不思議:変数は対数正規分布を持っている場合ではない対数変換変数の平均値よりも好ましい平均形質転換されていない変数の対数平均値は、正規分布の自然の概要、およびログですと、 -変換された変数は正規分布していますが、変数自体はそうではありませんか?


3
対数正規分布変数がある場合、あなたの手がかりに同意します。ただし、データの元のスケールに基づいて簡単に理解できる統計を取得するには、平均を「逆変換」する必要があります。これは記事の結論を説明するかもしれません。また、ログ変換後、正規分布変数を取得できなくなる可能性があります。この場合、どちらのアプローチが良いかわかりません。
-soufanom

回答:


46

対数変換された変数の平均が望ましいと思われるかもしれませんが(これは通常対数正規化がパラメータ化される方法であるため)、実際の観点からは、平均の対数は通常はるかに有用です。

これは、モデルが正確ではない場合に特に当てはまります。GeorgeBoxの言葉を引用すると、「すべてのモデルが間違っています。一部は有用です」

ある量が対数正規分布し、血圧が言うと(私は医者ではありません!)、私たちには男性と女性の2つの集団があります。平均血圧は男性よりも女性の方が高いという仮説を立てることができます。 これは、平均血圧のログが男性よりも女性の方が高いかどうかを尋ねることに正確に対応しています。対数血圧の平均が女性その男性でより高いかどうかを尋ねるのと同じではありません

ディストリビューションの教科書のパラメーター化に混乱しないでください。「本当の」意味はありません。対数正規分布は、数学的な利便性のために、ログの平均()によってパラメーター化されますが、実際の平均と分散によってパラメーター化することも選択できますμln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

明らかに、そうすることで代数は恐ろしく複雑になりますが、それでも機能し、同じことを意味します。

上記の式を見ると、変数の変換と平均の変換の重要な違いがわかります。平均の対数、が増加すると増加しますが、対数の平均は増加しません。σ 2 のln μ LNln(μ)σln2μln

これは、単に分散パラメーターが大きいために、対数正規分布()の平均パラメーターが同じであっても、女性は平均して男性よりも高い血圧を持つことができることを意味します。この事実は、log(Blood Pressure)を使用したテストでは見逃されます。μln

これまでのところ、血圧は真に対数正常であると想定しています。真の分布が対数正規分布でない場合、データの変換は(通常)上記よりもさらに悪化します-「平均」パラメータが実際に何を意味するのかよくわからないためです。つまり、上記で示した平均と分散の2つの方程式が正しいことはわかりません。これらを使用して前後に変換すると、追加のエラーが発生します。


これは非常に役立つことがわかりました:christoph-scherber.de/content/PDF%20Files/…–
Aditya

2
コロネ、私はあなたの答えで2つの重要な文章を強調しました。気にしないでください。同意しない場合は、ロールバックしてください。
ステファン

17

生物統計学の勉強中に受講した高度なデータ分析コースからの私の2セントです(教授のメモ以外の参照はありませんが)。

要するに、データの線形性と不均一分散(不等分散)に対処する必要があるかどうか、あるいは単に線形性に対処するかどうかになります。

彼女は、データの変換がモデルの線形性と分散の両方の仮定に影響を与えることに注目しています。たとえば、残差に両方の問題がある場合、データの変換を検討できます。これにより、両方を修正できる可能性があります。変換はエラーを変換するため、エラーの分散が変化します。

対照的に、リンク関数の使用は、分散ではなく線形性の仮定のみに影響します。ログは平均(期待値)から取得されるため、残差の分散は影響を受けません。

要約すると、非一定の分散の問題がない場合、彼女はその場合分散を変更したくないので、変換よりもリンク関数を使用することを提案します(すでに仮定を満たしている)。


6
リンク機能は平均にのみ影響しますが、リンク機能はGLMの一部にすぎません。コメントは、ログリンク付きのGaussian glmで機能します。ガンマログのリンクを持つGLMはそのログスケールで一定の分散をログを取り、フィットと同じ分散機能の仮定(平均二乗に比例分散)を持つことになります。GLMフレームワーク内の他のファミリには、他の分散関数があります。残念ながら、GLMのウィキペディアページの表では、配布ファミリの分散関数が省略されています。
Glen_b 14年

2
ただし、ここではいくつかの例を挙げいます。ここだガンマ
Glen_b

-1

真の応答が対称(正規分布ではない)であるが、対数変換された応答が正規の場合、変換された応答の線形回帰が使用され、指数係数は幾何平均の比を示します。

真の応答が対称(正規分布)であるが、説明(X)と応答の関係が線形ではなく、対数期待値がXの線形関数である場合、対数リンクのGLMが使用され、指数係数は算術平均の比率を示します


この答えは明確ではありません。「検証可能」ではなく「可変」という意味ですか?
マイケルチャーニック

これは答えの断片です。これが質問とどのように関連しているか、そして質問に対する答えが実際にこの洞察に基づいているものを明確にする必要があります。
-ReneBt
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.