対数変換された予測子および/または応答の解釈


46

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。

の場合を考えます

log(DV) = Intercept + B1*IV + Error 

IVはパーセントの増加として解釈できますが、

log(DV) = Intercept + B1*log(IV) + Error

または私が持っているとき

DV = Intercept + B1*log(IV) + Error


1
「パーセント増加」の解釈は正しくないと感じていますが、その理由を正確に言うのに十分な理解がありません。誰かが助けてくれることを願っています...それ以上に、XY関係をより良く確立するのに役立つ場合はログを使用してモデリングすることをお勧めしますが、元の変数を使用してその関係の選択例を報告します。特に、技術的にあまり詳しくないオーディエンスを扱う場合。
rolando2

3
@ rolando2:私は同意しません。有効なモデルが変換を必要とする場合、通常、有効な解釈は変換されたモデルの係数に依存します。これらの係数の意味を聴衆に適切に伝えることは、研究者の責任です。それはもちろん、給料を最初からログ変換しなければならないほどの大金を支払われる理由です。
jthetzel

1
@BigBucks:さて、このように見てください。Xのログ(基数10)の1が変化するごとに、Yがbだけ変化することを説明するときに、聴衆があなたの意味を理解できないと仮定します。しかし、10、100、および1000のX値を使用して3つの例を理解できると仮定します。その時点で、関係の非線形性に追いつくでしょう。全体的なログベースのbを引き続き報告できますが、これらの例を与えるとすべての違いが生じる可能性があります。
rolando2

1
....以下であなたのすばらしい説明を読みましたが、これらの「テンプレート」を使用することで、この種の問題を理解する上で多くの助けになるかもしれません。
rolando2

1
ここで読者は、これらの密接に関連するスレッドを見ることもできます:線形回帰対数変換された係数を解釈する方法数字の分布のログを取るタイミングと理由
GUNG -復活モニカ

回答:


42

チャーリーは素晴らしい、正しい説明を提供します。UCLAの統計コンピューティングサイトには、さらにいくつかの例がありますhttp : //www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htmおよび http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

チャーリーの答えを補足するために、例の具体的な解釈を以下に示します。いつものように、係数の解釈は、モデルを守ることができ、回帰診断が満足できるものであり、データが有効な研究からのものであると仮定します。

例A:変換なし

DV = Intercept + B1 * IV + Error 

「IVの1単位の増加はB1、DVの()単位の増加に関連しています。」

例B:変換された結果

log(DV) = Intercept + B1 * IV + Error 

「IVの1単位の増加はB1 * 100、DVの()パーセントの増加に関連しています。」

例C:露出が変換された

DV = Intercept + B1 * log(IV) + Error 

「IVの1パーセントの増加はB1 / 100、DVの()単位の増加に関連しています。」

例D:結果が変換され、露出が変換される

log(DV) = Intercept + B1 * log(IV) + Error 

「IVの1パーセントの増加はB1、DVの()パーセントの増加に関連しています。」


1
これらの解釈は、対数の底に関係なく成り立ちますか?
アヤレウA.

例B:変換された結果log(DV)=インターセプト+ B1 * IV +エラーDV削減?回答いただきありがとうございます
Antouria 14年

DV〜B1 * log(IV)は、ゼロ境界の連続従属変数の良いモデルですか?
バカバーグ

2
混乱するかもしれません。結果を対数変換する場合は、乗法の差を見つけるために係数を再指数化する必要があります。対数スケールでそれをInterpretting割合は非常に1に近いときにのみ、近似値として動作します
アダモ

リンクが壊れています。
ニックコックス

22

ログ対数モデルで、ことを確認 ことを思い出してください または この後者の定式化に100を掛けると、変化率が得られます。についても同様の結果が得られます。

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

この事実を使用して、 1%の変化に対する変化率としてを解釈できます。β1yx

同じロジックに従って、レベルログモデルの場合、次のようになります。

β1=ylog(x)=100y100×log(x).
またはは、 1パーセントの変化に対するの単位変化です。β1/100yx

私はこれを把握したことがありません。正確には何がある...それは簡単でなければなりませんが、私はそれを見たことがありませんそして、ここからパーセンテージの変化にどのように進みますか?
log(y)=yy?
B_Miner

1
すべてのその行がないの誘導体取るあるに対してによって、および多重両側。我々は持っている。この画分は、その後の変化であるで割った。100を掛けた値は、変化率です。log(y)yyyy1y0yyy
チャーリー

7

線形回帰の主な目的は、リグレッサの隣接レベルを比較した結果の平均差を推定することです。手段には多くの種類があります。算術平均に最も精通しています。

AM(X)=(X1+X2++Xn)n

AMは、OLSおよび変換されていない変数を使用して推定されるものです。幾何平均は異なり​​ます。

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

ここに画像の説明を入力してください

実際には、GMの差は乗法の差です:ローンを引き受けるときに利息のプレミアムのX%を支払う、メトホルミンの開始後にヘモグロビンレベルがX%減少する、スプリングの故障率が幅の一部としてX%増加する これらのすべての場合において、生の平均差はあまり意味がありません。

対数変換は、幾何平均差を推定します。結果をログ変換し、次の式仕様を使用して線形回帰でモデル化するlog(y) ~ x場合、係数は、隣接する単位を比較するログ結果の平均差です。これは実際には役に立たないので、パラメーターを指数化し、この値を幾何平均差として解釈します。 X E β 1β1Xeβ1

たとえば、ARTの10週間投与後のHIVウイルス負荷の研究では、ポスト幾何平均を推定する場合があります。つまり、ベースラインでのウイルス量が何であれ、追跡時に平均で60%減少したか、0.6倍減少したことを意味します。負荷がベースラインで10,000だった場合、私のモデルはフォローアップで4,000と予測し、ベースラインで1,000だった場合、モデルはフォローアップで400と予測します(生のスケールでは小さい差ですが、比例的に同じ)。eβ1=0.40

これは、他の答えとの重要な区別です。対数スケール係数に100を掛ける規則は、が小さい場合の近似に由来し。(対数スケールでの)係数が0.05の場合、あり、解釈は次のとおりです 1単位の "増加"に対する結果の5% "増加" 。ただし、係数が0.5の場合はで 、 1単位の「増加」に対して 65%の「増加」と解釈します。50%の増加ではありません。X EXP 0.05 1.05 XのEXP 0.5 = 1.65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

私たちは、予測変換ログとしますy ~ log(x, base=2)。ここでは、生の違いではなく、乗法的変化に興味があります。現在、 2倍異なる参加者を比較することに興味があります。たとえば、相加的リスクモデルを使用して、さまざまな濃度の血液媒介病原体への曝露後の感染(yes / no)を測定することに興味があるとします。生物学的モデルは、濃度が倍になるたびにリスクが比例して増加することを示唆している可能性があります。次に、結果を変換しませんが、推定された係数は、感染物質の2倍の濃度差で暴露されたグループを比較するリスク差として解釈されます。X β 1xXβ1

最後に、log(y) ~ log(x)単純に両方の定義を適用して、曝露レベルが乗法的に異なるグループを比較する乗法的差異を取得します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.