問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか?
問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか?
回答:
私はこれと同じくらい多くの優れた応答でスレッドに飛び込むことをいつもheしますが、ルートや相互のようなデータを「押しつぶす」他の変換よりも対数を好む理由を提供する答えはほとんどないことを印象づけます。
その前に、既存の回答の知恵をより一般的な方法で要約しましょう。 次のいずれかが当てはまる場合、従属変数のいくつかの非線形再表現が示されます。
残差の分布は歪んでいます。変換の目的は、ほぼ対称的に分布する残差を取得することです(もちろん、約0)。
残差の広がりは、従属変数の値によって体系的に変化します(「不均一分散性」)。変換の目的は、スプレッドの体系的な変化を除去し、近似の「同相性」を達成することです。
関係を線形化する。
科学理論が示す場合。たとえば、化学では、濃度を対数として表現することがよくあります(アクティビティを与えるか、またはよく知られているpHでさえ)。
より曖昧な統計理論が、残差が相加的に蓄積しない「ランダム誤差」を反映していることを示唆している場合。
モデルを単純化するため。たとえば、対数は「相互作用」項の数と複雑さを単純化できる場合があります。
(これらの兆候は互いに矛盾する可能性があります。そのような場合、判断が必要です。)
それで、他の変換の代わりに対数が具体的に示されるのはいつですか?
残差には、「強く」正に歪んだ分布があります。John Tukeyは、EDAに関する本の中で、残差のランク統計に基づいて(Box-Coxまたはパワー変換のファミリー内で)変換を推定する定量的な方法を提供しています。本当に、ログを取ることで残差が対称化される場合、それはおそらく正しい再表現の形式であるという事実に帰着します。それ以外の場合は、他の再表現が必要です。
SD
関係が指数関数に近い場合。
残差が乗法的累積誤差を反映すると考えられる場合。
説明変数のわずかな変化が従属変数の乗法的(パーセント)変化の観点から解釈されるモデルが本当に必要です。
最後に、再表現を使用するいくつかの非理由:
外れ値を外れ値のように見せないようにします。外れ値とは、データの簡潔で比較的単純な記述に適合しないデータムです。外れ値の見栄えを良くするために説明を変更することは、通常、優先順位の誤った逆転です。まず、データの科学的に有効で統計的に優れた説明を取得してから、外れ値を調べます。時折の異常値に、残りのデータの記述方法を決定させないでください!
ソフトウェアが自動的に行ったからです。(十分に言った!)
すべてのデータが正であるため。(陽性はしばしば正の歪度を意味しますが、そうする必要はありません。さらに、他の変換がよりうまく機能することができます。たとえば、多くの場合、ルートはカウントされたデータに最適です。
「悪い」データ(おそらく低品質)を適切に動作させるには。
データをプロットできるようにするため。変換は、データをプロットすることができるように必要とされる場合(、それはおそらく、すでに述べた一の以上の理由のために必要なの変革のための唯一の理由は本当に先に行くとそれを行う、プロットするためであれば- 。しかし、唯一のプロットしますデータ。分析のためにデータを未変換のままにします。)
私はいつも、自然対数を取ることによって変数を変換する3つの理由があることを生徒に伝えます。変数をログに記録する理由により、独立変数、依存変数、またはその両方を記録するかどうかが決まります。明確にするために、自然対数を取ることについて話しています。
第一に、他のポスターが指摘しているようにモデルの適合性を改善すること。たとえば、残差が正規分布していない場合、歪んだ変数の対数を取ることで、スケールを変更し、変数をより「正規」に分布させることで適合を改善できます。たとえば、収益はゼロで切り捨てられ、多くの場合正のスキューを示します。変数に負のスキューがある場合、まず対数を取る前に変数を反転できます。ここでは特に、連続変数として入力されるリッカート尺度について考えています。これは通常、従属変数に適用されますが、独立変数によって引き起こされる残差(不均一分散など)の問題が発生する場合があります。たとえば、講師とクラスのセットで講師評価を説明するモデルを実行する場合、変数「クラスサイズ」(つまり、講義の学生数)には、講師評価の分散が大きいほど小さいため、不均一分散を誘発する外れ値がありました。小さいコホートよりもコホート。この例ではロバスト標準誤差を計算するか、重み付き最小二乗を使用すると解釈が容易になる可能性がありますが、学生変数を記録すると役立ちます。
そして最後に、そうするための理論的な理由があるかもしれません。たとえば、推定したい一部のモデルは乗法であり、したがって非線形です。対数を取ることにより、これらのモデルを線形回帰で推定できます。これの良い例には、経済学におけるコブ・ダグラス生産関数と教育におけるミンサー方程式が含まれます。Cobb-Douglas生産関数は、入力が出力に変換される方法を説明します。
どこ
この対数を取ると、OLS線形回帰を使用して関数を簡単に推定できます。
ルートや逆数などの他の変換よりも対数を好む理由に関するwhuberの優れた点の詳細については、他の変換と比較した対数変換に起因する回帰係数の独自の解釈可能性に焦点を当てます:
オリバー・N・キーン。ログ変換は特別です。1995年の医学統計 ; 14(8):811-819。DOI:10.1002 / sim.4780140810。(疑わしい合法性のPDFはhttp://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdfで入手できます)。
あなたがログインする場合の独立変数をxを ベースにB、あなたは従属変数の変化として回帰係数(及びCI)を解釈できるのy あたりのBにおける倍増加のx。(彼らは変化に対応するように、ベース2のログは、従って、しばしば有用であるYに倍加あたりのX、または場合は10を底とするログxは稀である数桁にわたって変化します)。平方根などの他の変換には、そのような単純な解釈はありません。
従属変数y(元の質問ではなく、以前の回答のいくつかが対処したもの)をログに記録すると、Tim Coleの「対称性」というアイデアが結果を提示するのに魅力的であることがわかります(1回も論文で使用しました)。しかし、彼らはそんなに広く捉えているわけではないようです:
ティムJコール。Sympercents:100 log(e)スケールの対称パーセンテージの違いにより、ログ変換されたデータの表示が簡素化されます。医学統計 2000; 19(22):3109-3125。DOI:10.1002 / 1097-0258(20001130)19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ Stat MedがDOIとしてSICIの使用を停止したことを嬉しく思います...]
通常、入力変数のログを取り、それをスケーリングし、分布を変更します(たとえば、正常に分布させる)。しかし、盲目的に行うことはできません。スケーリングを行うときは、結果がまだ解釈可能であることを確認するように注意する必要があります。
これは、ほとんどの入門統計テキストで説明されています。これに関する議論については、Andrew Gelmanの「2つの標準偏差で割ることによる回帰入力のスケーリング」に関する論文を読むこともできます。また、彼は「回帰およびマルチレベル/階層モデルを使用したデータ分析」の冒頭でこれについて非常に良い議論をしています。
ログを取ることは、不良データ/異常値を処理するための適切な方法ではありません。
残差に問題がある場合、データのログを取る傾向があります。たとえば、特定の共変量に対して残差をプロットし、増加/減少パターン(漏斗形状)を観察する場合、変換が適切な場合があります。通常、非ランダムな残差は、モデルの仮定が間違っていること、つまり非正規データであることを示します。
一部のデータ型は、対数変換に自動的に役立ちます。たとえば、私は通常、集中力や年齢を扱うときにログを取ります。
変換は主に異常値の処理には使用されませんが、ログを取るとデータが破壊されるため、変換は役立ちます。
12年10月26日の最初の回答に対するコメントとして残されたuser1690130の質問に答えたいと思います。「地域の人口密度や各学区の児童教師比率などの変数についてはどうですか。人口1000人あたりの殺人数?これらの変数のログをとる教授を見たことがあります。たとえば、殺人率はすでにパーセントではないのでしょうか?ログはパーセントの変化でしょうか?率?なぜ子どもと教師の比率のログが優先されるのでしょうか?」
私は同様の問題に答えようとしていたので、私の古い統計コースブック(Jeffrey Wooldridge。2006. Introductory Econometrics-A Modern Approach、第4版。第6章重回帰分析:さらなる問題。Wooldridgeのアドバイス:
失業率、年金制度への参加率、標準化された試験に合格した生徒の割合、報告された犯罪の逮捕率など、割合またはパーセント形式で表示される変数- 元の形式または対数形式のいずれかで表示できます、 レベル形式でそれらを使用する傾向がありますが。これは、元の変数に関係する回帰係数(従属変数であるか独立変数であるかに関係なく)には、パーセンテージポイントの変化の解釈があるためです。私たちは、たとえば、ログ(使用している場合はunemを回帰、中)unemは、失業者の割合である、我々は、パーセント・ポイントの変更やパーセンテージ変化を区別することは非常に慎重でなければなりません。場合は、覚えておいてくださいunem8から9になりますが、これは1パーセントポイントの増加ですが、最初の失業レベルから12.5%増加しています。logを使用するということは、失業率の変化率log(9)-log(8)= 0.118または11.8%を見ていることを意味します。これは、実際の12.5%の増加に対する対数近似です。
これと、user1690130の質問に対するwhuberの以前のコメントに基づいて、ログ形式を使用して密度のゆがみを減らすことができるなどの大きなトレードオフが生じない限り、密度またはパーセンテージの変数の対数を使用して解釈を簡単にしないようにしますレート変数。
悪いデータに対処するためにログを取得することは適切に行われるというシェーンのポイント。通常の残差の重要性に関するコリンのように。実際には、通常、入力変数と出力変数も比較的正常であれば、通常の残差を得ることができます。実際には、これは、変換されたデータセットと変換されていないデータセットの分布を確認し、それらがより正常になったことを確認し、正常性のテスト(Shapiro-WilkまたはKolmogorov-Smirnovテストなど)を実施し、結果がより正常かどうかを判断することを意味します。解釈と伝統も重要です。たとえば、認知心理学では、反応時間のログ変換がよく使用されますが、少なくとも私にとっては、ログRTの解釈は不明確です。さらに、