線形回帰では、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか?


164

問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか?


1
外れ値の影響を減らす方法、または変数のログをいつ使用するかについて質問していますか?
ベンジャミンバニエ

23
OPは、「入力変数のログを使用している人のことを聞いたことがあります。なぜそうするのですか?」
シェーン

なぜログだけなのか?この質問は、mx + bに関連する残差を最小化するために使用できるデータ変換手法に適用すべきではありませんか?
AsymLabs

1
@AsymLabs-積を合計に変換する唯一の関数であるため、ログは回帰で特別な場合があります。
確率論的

12
読者への警告:この質問はIVの変換について尋ねていますが、答えのいくつかはDVを変換する理由について話しているようです。これらはすべてIVを変換する理由でもあると誤解されることはありません。特に、IVの分布は一般的には関係ありません(実際、DVの周辺分布も関係ありません)。
-Glen_b

回答:


168

私はこれと同じくらい多くの優れた応答でスレッドに飛び込むことをいつもheしますが、ルートや相互のようなデータを「押しつぶす」他の変換よりも対数を好む理由を提供する答えはほとんどないことを印象づけます。

その前に、既存の回答の知恵をより一般的な方法で要約しましょう。 次のいずれかが当てはまる場合、従属変数のいくつかの非線形再表現が示されます。

  • 残差の分布は歪んでいます。変換の目的は、ほぼ対称的に分布する残差を取得することです(もちろん、約0)。

  • 残差の広がりは、従属変数の値によって体系的に変化します(「不均一分散性」)。変換の目的は、スプレッドの体系的な変化を除去し、近似の「同相性」を達成することです。

  • 関係を線形化する。

  • 科学理論が示す場合。たとえば、化学では、濃度を対数として表現することがよくあります(アクティビティを与えるか、またはよく知られているpHでさえ)。

  • より曖昧な統計理論が、残差が相加的に蓄積しない「ランダム誤差」を反映していることを示唆している場合。

  • モデルを単純化するため。たとえば、対数は「相互作用」項の数と複雑さを単純化できる場合があります。

(これらの兆候は互いに矛盾する可能性があります。そのような場合、判断が必要です。)

それで、他の変換の代わりに対数が具体的に示されるのはいつですか?

  • 残差には、「強く」正に歪んだ分布があります。John Tukeyは、EDAに関する本の中で、残差のランク統計に基づいて(Box-Coxまたはパワー変換のファミリー内で)変換を推定する定量的な方法を提供しています。本当に、ログを取ることで残差が対称化される場合、それはおそらく正しい再表現の形式であるという事実に帰着します。それ以外の場合は、他の再表現が必要です。

  • SD

  • 関係が指数関数に近い場合。

  • 残差が乗法的累積誤差を反映すると考えられる場合。

  • 説明変数のわずかな変化が従属変数の乗法的(パーセント)変化の観点から解釈されるモデルが本当に必要です。

最後に、再表現を使用するいくつかの理由

  • 外れ値を外れ値のように見せないようにします。外れ値とは、データの簡潔で比較的単純な記述に適合しないデータムです。外れ値の見栄えを良くするために説明を変更することは、通常、優先順位の誤った逆転です。まず、データの科学的に有効で統計的に優れた説明を取得してから、外れ値を調べます。時折の異常値に、残りのデータの記述方法を決定させないでください!

  • ソフトウェアが自動的に行ったからです。(十分に言った!)

  • すべてのデータが正であるため。(陽性はしばしば正の歪度を意味しますが、そうする必要はありません。さらに、他の変換がよりうまく機能することができます。たとえば、多くの場合、ルートはカウントされたデータに最適です。

  • 「悪い」データ(おそらく低品質)を適切に動作させるには。

  • データをプロットできるようにするため。変換は、データをプロットすることができるように必要とされる場合(、それはおそらく、すでに述べた一の以上の理由のために必要なの変革のための唯一の理由は本当に先に行くとそれを行う、プロットするためであれば- 。しかし、唯一のプロットしますデータ。分析のためにデータを未変換のままにします。)


1
地域の人口密度や、各学区の児童教師比率、または人口1000人あたりの殺人数などの変数はどうでしょうか。私は教授がこれらの変数のログを取ることを見てきました。理由ははっきりしません。たとえば、殺人率はすでに割合ではないでしょうか?ログはレートのパーセンテージの変化でしょうか?なぜ子どもと教師の比率のログが好まれるのでしょうか?真の関数形式に関する基礎理論がない場合、すべての連続変数に対して対数変換を行う必要がありますか?
user1690130

1
@JG小さな比率は、分布が歪む傾向があります。対数と根は、それらをより対称にする可能性があります。パーセンテージに関連するあなたの質問を理解していません:おそらく、パーセンテージの異なる使用法を融合しているのでしょうか(全体の一部として何かを表現するものと、相対的な変化を表現するもの)?対数が常に適用されることを主張する何かを書いたとは思わない-それからはほど遠い!ですから、最後の質問の根拠がわかりません。
whuber

2
「残差が乗法的に累積する誤差を反映すると考えられている場合。」このフレーズの解釈に問題があります。別の1つか2つの文でこれを少し肉付けすることは可能ですか?あなたが言及している蓄積は何ですか?
ハトシェプスト

比率と密度については@ user1690130です。これらは一般に、露出のオフセットを含むカウントのポアソン族分布として適合させる必要があります。たとえば、人数はカウントであり、オフセットは地域の面積です。良い説明のために、この質問を参照してください- stats.stackexchange.com/questions/11182/...
マイケル・バートン

2
@Hatshepsut乗法的に累積する誤差の簡単な例は、従属変数としての体積と、各線形寸法の測定誤差です。
abalter

73

私はいつも、自然対数を取ることによって変数を変換する3つの理由があることを生徒に伝えます。変数をログに記録する理由により、独立変数、依存変数、またはその両方を記録するかどうかが決まります。明確にするために、自然対数を取ることについて話しています。

第一に、他のポスターが指摘しているようにモデルの適合性を改善すること。たとえば、残差が正規分布していない場合、歪んだ変数の対数を取ることで、スケールを変更し、変数をより「正規」に分布させることで適合を改善できます。たとえば、収益はゼロで切り捨てられ、多くの場合正のスキューを示します。変数に負のスキューがある場合、まず対数を取る前に変数を反転できます。ここでは特に、連続変数として入力されるリッカート尺度について考えています。これは通常、従属変数に適用されますが、独立変数によって引き起こされる残差(不均一分散など)の問題が発生する場合があります。たとえば、講師とクラスのセットで講師評価を説明するモデルを実行する場合、変数「クラスサイズ」(つまり、講義の学生数)には、講師評価の分散が大きいほど小さいため、不均一分散を誘発する外れ値がありました。小さいコホートよりもコホート。この例ではロバスト標準誤差を計算するか、重み付き最小二乗を使用すると解釈が容易になる可能性がありますが、学生変数を記録すると役立ちます。

β β

β

β

β100

β/100

そして最後に、そうするための理論的な理由があるかもしれません。たとえば、推定したい一部のモデルは乗法であり、したがって非線形です。対数を取ることにより、これらのモデルを線形回帰で推定できます。これの良い例には、経済学におけるコブ・ダグラス生産関数と教育におけるミンサー方程式が含まれます。Cobb-Douglas生産関数は、入力が出力に変換される方法を説明します。

Y=ALαKβ

どこ

Y

A

L

K

αβ

この対数を取ると、OLS線形回帰を使用して関数を簡単に推定できます。

log(Y)=log(A)+αlog(L)+βlog(K)

5
「ログYとX - Xの1つの単位の増加は、Y中/減少β* 100%の増加につながる」:私はそのようにEXP(β)≈1 +ββが小さい場合にのみ、これは適用されると思う
井田

1
素敵で明確な感謝!1つの質問、Log YおよびXの場合のインターセプトをどのように解釈しますか?一般的に私は...変換回帰を記録報告する方法について悩んだ
Bakaburg

2
私は経済学の例が含まれる回答を探しています[「あなたは ' Cobb-Douglas Production Function 'で私をお持ちでした。」] ....しかし、一つのこと:2番目の方程式の切片の項をlog(A )最初の方程式と一致させる。
スティーブS 14

100×(eβ1)

21

ルートや逆数などの他の変換よりも対数を好む理由に関するwhuberの優れた点の詳細については、他の変換と比較した対数変換に起因する回帰係数の独自の解釈可能性に焦点を当てます:

オリバー・N・キーン。ログ変換は特別です。1995年の医学統計 ; 14(8):811-819。DOI:10.1002 / sim.4780140810。(疑わしい合法性のPDFはhttp://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdfで入手できます)。

あなたがログインする場合の独立変数をxを ベースにB、あなたは従属変数の変化として回帰係数(及びCI)を解釈できるのy あたりのBにおける倍増加のx。(彼らは変化に対応するように、ベース2のログは、従って、しばしば有用であるYに倍加あたりのX、または場合は10を底とするログxは稀である数桁にわたって変化します)。平方根などの他の変換には、そのような単純な解釈はありません。

従属変数y(元の質問ではなく、以前の回答のいくつかが対処したもの)をログに記録すると、Tim Coleの「対称性」というアイデアが結果を提示するのに魅力的であることがわかります(1回も論文で使用しました)。しかし、彼らはそんなに広く捉えているわけではないようです:

ティムJコール。Sympercents:100 log(e)スケールの対称パーセンテージの違いにより、ログ変換されたデータの表示が簡素化されます。医学統計 2000; 19(22):3109-3125。DOI:10.1002 / 1097-0258(20001130)19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ Stat MedDOIとしてSICIの使用を停止したことを嬉しく思います...]


1
参照と非常に良い点をありがとう。関心のある問題は、この問題がログだけでなくすべての変換に適用されるかどうかです。統計/確率は、効果的なパフォーマンスの予測や効果的な基準/ガイダンスを可能にするため、私たちにとって有用です。長年にわたり、べき乗変換(別の名前のログ)、多項式変換、およびその他(区分的変換)を使用して、残差の削減、信頼区間の強化、および特定のデータセットからの予測能力の向上を試みてきました。これは間違っていると言っていますか?
AsymLabs

1
@ AsymLabs、Breimanの2つの文化(大まかに予測子とモデラー)はどの程度分離していますか?Cf. 2つの文化 -論争。
デニス14年

15

通常、入力変数のログを取り、それをスケーリングし、分布を変更します(たとえば、正常に分布させる)。しかし、盲目的に行うことはできません。スケーリングを行うときは、結果がまだ解釈可能であることを確認するように注意する必要があります。

これは、ほとんどの入門統計テキストで説明されています。これに関する議論については、Andrew Gelmanの「2つの標準偏差で割ることによる回帰入力のスケーリング」に関する論文を読むこともできます。また、彼は「回帰およびマルチレベル/階層モデルを使用したデータ分析」の冒頭でこれについて非常に良い議論をしています。

ログを取ることは、不良データ/異常値を処理するための適切な方法ではありません。


12

残差に問題がある場合、データのログを取る傾向があります。たとえば、特定の共変量に対して残差をプロットし、増加/減少パターン(漏斗形状)を観察する場合、変換が適切な場合があります。通常、非ランダムな残差は、モデルの仮定が間違っていること、つまり非正規データであることを示します。

一部のデータ型は、対数変換に自動的に役立ちます。たとえば、私は通常、集中力や年齢を扱うときにログを取ります。

変換は主に異常値の処理には使用されませんが、ログを取るとデータが破壊されるため、変換は役立ちます。


1
ただし、logを使用するとモデルが変更されます。線形回帰の場合はy〜a * x + b、logの線形回帰の場合はy〜y0 * exp(x / x0)です。

1
同意します-ログの変更をモデルに適用します。ただし、データを変換する必要がある場合は、そもそもモデルが適切ではなかったことを意味します。
csgillespie

2
@cgillespie:濃度、はい。でも年齢?それ、変だよ。
whuber

@whuber:非常にデータに依存していると思いますが、使用したデータセットでは、10〜18年の間に大きな違いが見られますが、20〜28年の間に小さな違いが見られます。幼児でも、0-1歳の違いは1-2歳の違いと同じではありません。
csgillespie

1
@landroni簡単に言います。貧弱だとは言いませんが、「ie」の代わりに「eg」が意図されている可能性が高いことを除いて、ここでは「ランダム」の使用を「独立して同一に分散」という意味で理解しています。 OLS。では、いくつかの設定の人々は、さらに、この共通基盤となる分布を仮定し、正常であるが、それは実際にまたは理論的には厳密には必要ではない。必要があるすべては、関連する統計のサンプリング分布は正常に近いことがあります。
whuberの

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

12年10月26日の最初の回答に対するコメントとして残されたuser1690130の質問に答えたいと思います。「地域の人口密度や各学区の児童教師比率などの変数についてはどうですか。人口1000人あたりの殺人数?これらの変数のログをとる教授を見たことがあります。たとえば、殺人率はすでにパーセントではないのでしょうか?ログはパーセントの変化でしょうか?率?なぜ子どもと教師の比率のログが優先されるのでしょうか?」

私は同様の問題に答えようとしていたので、私の古い統計コースブック(Jeffrey Wooldridge。2006. Introductory Econometrics-A Modern Approach、第4版。第6章重回帰分析:さらなる問題。Wooldridgeのアドバイス:

失業率、年金制度への参加率、標準化された試験に合格した生徒の割合、報告された犯罪の逮捕率など、割合またはパーセント形式で表示される変数- 元の形式または対数形式のいずれかで表示できます、 レベル形式でそれらを使用する傾向がありますが。これは、元の変数に関係する回帰係数(従属変数であるか独立変数であるかに関係なく)には、パーセンテージポイントの変化の解釈があるためです。私たちは、たとえば、ログ(使用している場合はunemを回帰、中)unemは、失業者の割合である、我々は、パーセント・ポイントの変更やパーセンテージ変化を区別することは非常に慎重でなければなりません。場合は、覚えておいてくださいunem8から9になりますが、これは1パーセントポイントの増加ですが、最初の失業レベルから12.5%増加しています。logを使用するということは、失業率の変化率log(9)-log(8)= 0.118または11.8%を見ていることを意味します。これは、実際の12.5%の増加に対する対数近似です。

これと、user1690130の質問に対するwhuberの以前のコメントに基づいて、ログ形式を使用して密度のゆがみを減らすことができるなどの大きなトレードオフが生じない限り、密度またはパーセンテージの変数の対数を使用して解釈を簡単にしないようにしますレート変数。


多くの場合、割合(ロジット変換)0,1(上すなわち比率は、比例データは、多くの場合、ログ変換が正しくないような方法で、残差の正規性の仮定に違反するため、これは使用されているため。。
コリン・

3

悪いデータに対処するためにログを取得することは適切に行われるというシェーンのポイント。通常の残差の重要性に関するコリンのように。実際には、通常、入力変数と出力変数も比較的正常であれば、通常の残差を得ることができます。実際には、これは、変換されたデータセットと変換されていないデータセットの分布を確認し、それらがより正常になったことを確認し、正常性のテスト(Shapiro-WilkまたはKolmogorov-Smirnovテストなど)を実施し、結果がより正常かどうかを判断することを意味します。解釈と伝統も重要です。たとえば、認知心理学では、反応時間のログ変換がよく使用されますが、少なくとも私にとっては、ログRTの解釈は不明確です。さらに、


2
回答は投票に基づいて並べ替えられますので、他の回答を参照しないようにしてください。
Vebjorn Ljosa

4
通常、正常性のテストは厳しすぎます。多くの場合、対称的に分布した残差を取得するだけで十分です。(実際には、残差は分布のピークが強くなる傾向があり、一部は疑わしい推定のアーティファクトであるため、データをどのように再表現しても「有意に」非正規としてテストされます。)
whuber

@whuber:同意しました。それが、「より正常になる」と指定した理由です。目的は、テストのp値に基づいた受け入れ/拒否の決定ではなく、変更のテスト統計を確認することです。
ラッセルピアス

必要に応じて他の回答を常に参照する必要があります!
abalter

@abalter?従わない
ラッセルピアス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.