右スキュー分布でログ変換が使用される理由は何ですか?


18

一度聞いたことがある

対数変換は、線形回帰または変位値回帰の右スキュー分布で最も一般的な変換です

この声明の根底にある理由はありますか?ログ変換が右スキュー分布に適しているのはなぜですか?

左スキュー分布はどうですか?

回答:


26

私のようなエコノミストは、ログ変換が大好きです。このような回帰モデルで特に気に入ってい:

lnYi=β1+β2lnXi+ϵi

どうしてそんなに好きなの?以下は、講義するときに生徒に与える理由のリストです。

  1. の陽性を尊重します。経済学やその他の分野での実際のアプリケーションでは、は本来、正の数です。価格、税率、生産量、生産コスト、あるカテゴリーの商品への支出などが考えられます。未変換の線形回帰からの予測値は負になる可能性があります。対数変換された回帰からの予測値が負になることはありません。それらは(派生については私の以前の回答を参照してください)。Y Yの J = EXP β 1 + β 2 LN X J1YYY^j=exp(β1+β2lnXj)1Nexp(ei)
  2. log-log関数形式は驚くほど柔軟です。注意: これにより 、多くの異なる形状が得られます。線(傾きはによって決定されるため、任意の正の傾きを持つことができます)、双曲線、放物線、および「平方根のような」形状。およびで描画しましたが、実際のアプリケーションではこれらのどちらも真ではないため、での曲線の勾配と高さはのexpβ 1 β1=0ε=0X=1
    lnYi=β1+β2lnXi+ϵiYi=exp(β1+β2lnXi)exp(ϵi)Yi=(Xi)β2exp(β1)exp(ϵi)
    ログログ機能フォームを愛するexp(β1)β1=0ϵ=0X=1 1に設定するのではなく、それらによって制御されます。
  3. TrynnaDoStatが言及しているように、ログ-ログ形式は大きな値を「引き込み」ます。これにより、多くの場合、データが見やすくなり、観測間の分散が正規化されることがあります。
  4. 係数は弾性として解釈されます。これは、の増加率であるの1%増加から。 Y Xβ2YX
  5. 場合ダミー変数である、あなたはそれをログインせずに、それを含んでいます。この場合、は、カテゴリとカテゴリの間のの割合の差です。β 2 Y X = 1 X = 0をXβ2YX=1X=0
  6. が時間である場合、通常はログに記録せずにを含めます。この場合、はの成長率ですが測定される時間単位で測定されますが年の場合、係数はたとえば年間成長率です。β 2 Y X X YXβ2YXXY
  7. 勾配係数、スケール不変になります。これは、一方では単位がないことを意味し、他方では、またはを再スケーリング(つまり、単位を変更)しても、推定値にはまったく影響を与えないことを意味します。。まあ、少なくともOLSと他の関連する推定量については。 X Y β 2β2XYβ2
  8. データが対数正規分布している場合、ログ変換によりデータが正規分布します。通常、分散データには多くのことがあります。

統計学者は一般に、経済学者がこのデータの特定の変換について過度に熱心であると感じています。これは、彼らが私のポイント8と私のポイント3の後半が非常に重要であると判断したからだと思います。したがって、データが対数正規分布していない場合、またはデータのログを記録しても、観測間で等しい分散をもつ変換データが得られない場合、統計学者は変換をあまり好まない傾向があります。経済学者はとにかく先に飛び込む可能性が高い。なぜなら、私たちが転換について本当に気に入っているのはポイント1、2、4-7であるからだ。


7
これらは標準的なポイントですが、簡潔にまとめておくと非常に便利です。多くのアカウントは、これらのポイントの一部のみをカバーしています。小さい点:経済学者の態度と統計学者の態度の対比は少しやり過ぎだと思います。たとえば、エラーファミリに対するリンクの重要性は、一般化された線形モデルの文献を介して実行されますが、トランペットを増やすこともできます。Keene、Oliver N.1995。ログ変換は特別です。医学の統計 14:811-819。DOI:10.1002 / sim.4780140810は別の例です。
ニックコックス

21

まず、正しいスキューのログを取得した場合に通常起こることを見てみましょう。

上の行には、3つの異なる、ますます歪んだ分布からのサンプルのヒストグラムが含まれています。

一番下の行には、ログのヒストグラムが含まれています。

ここに画像の説明を入力してください

中央のケース()が対称に変換され、より緩やかな右スキューのケース()がやや左スキューになっていることがわかります。一方、最大のスキュー変数()は、ログを取得した後でも、まだ(わずかに)右スキューです。yxz

分布をより正常に見せたい場合、変換により2番目と3番目のケースが確実に改善されました。これが役立つ可能性があることがわかります。


それではなぜ機能するのでしょうか?

分布形状の図を見ているとき、平均または標準偏差を考慮していないことに注意してください-これは軸上のラベルにのみ影響します。

したがって、ある種の「標準化された」変数を見ると想像できます(プラスのままで、すべてが同様の位置と広がりを持っている、など)

ログを取得すると、中央値に対して右側の極端な値(高い値)が「引き込まれ」、一方、左端の値(低い値)は中央値からさらに離れて引き戻される傾向があります。

ここに画像の説明を入力してください

最初の図では、、、および平均はすべて178に近く、すべての中央値は150に近く、ログの中央値はすべて5に近い。xyz

元のデータを見ると、右端の値(約750など)が中央値をはるかに上回っています。の場合、中央値より上の5つの四分位範囲です。y

しかし、ログを取得すると、中央値に引き戻されます。ログを取った後、中央値より約2四分位範囲だけです。

一方、30のような低い値(サイズ1000のサンプルでは4つの値のみがそれより下です)は、の中央値より1四分位範囲より少し小さいです。ログを取得すると、新しい中央値より約2四分位範囲になります。y

ここに画像の説明を入力してください

log(750)とlog(30)の両方がlog(y)の中央値からほぼ同じ距離になったときに、750/150と150/30の比率が両方とも5になることは偶然ではありません。それがログの仕組みです-一定の比率を一定の差に変換します。

ログが顕著に役立つとは限りません。たとえば、対数正規確率変数を取り、それを実質的に右にシフト(つまり、大きな定数を追加)して、平均が標準偏差に比べて大きくなる場合、その対数を取ると、形状。スキューは少なくなりますが、かろうじてです。


しかし、他の変換(たとえば平方根)も大きな値をそのように引き込みます。ログが特に人気があるのはなぜですか?

前のパートの最後で、1つの理由に触れました-一定の比率は一定の差になりがちです。これにより、ログの解釈が比較的容易になります。これは、一定の割合の変化(一連の数値のすべてに対して20%の増加など)が一定のシフトになるためです。したがって、元の数値がどれほど大きくても、自然対数の減少は、元の数値の15%の減少です。0.162

たとえば、多くの経済データと財務データはこのように動作します(パーセンテージスケールに対する一定またはほぼ一定の影響)。その場合、ログスケールは非常に理にかなっています。さらに、その割合スケール効果の結果として。値の広がりは平均が増加するにつれて大きくなる傾向があり、ログを取ることも広がりを安定させる傾向があります。通常、それは正常性よりも重要です。実際、元の図の3つの分布はすべて、標準偏差が平均とともに増加するファミリからのものであり、それぞれの場合、ログを取ることで分散が安定します。[ただし、これはすべての正しいスキューデータでは発生しません。特定のアプリケーション分野で発生するデータの種類では非常に一般的です。]

また、平方根によって物事がより対称的になる場合もありますが、ここでの例で使用するよりも分布のゆがみが少ない場合に発生する傾向があります。

(かなり簡単に)3つのより緩やかな右スキューの例の別のセットを構築できました。平方根は1つの左スキュー、1つの対称を作成し、3つ目はまだ右スキューでした(ただし、以前よりも少し少ないスキュー)。


左スキュー分布についてはどうですか?

対数変換を対称分布に適用すると、同じ理由で左に歪む傾向があります。これは、右の歪曲をより対称的にすることが多いためです。関連する説明を参照してください

すでにスキュー残って何かにログ変換を適用した場合に対応して、それはそれも作る傾向がありますより、スキュー放置しても、より緊密に中央値を超えるものを引っ張って、さらに困難中央下、以下のものをストレッチ。

そのため、ログ変換は役に立ちません。

電力変換 / Tukeyの梯子も参照してください。左にゆがんだ分布は、べき乗(1より大きい-二乗する)を取るか、累乗することにより、より対称的にすることができます。明らかな上限がある場合は、上限から観測値を減算し(右に歪んだ結果が得られる)、それを変換しようとします。


このすばらしい回答をありがとう、Glen_b。実証のためのデータを提供してから、この変換がなぜ/どのように機能するかを直感的に説明してください。大変感謝いたします。
ラム

5

log関数は、本質的に非常に大きな値を強調しません。を示す以下の画像を見てください。軸の値が軸で比較的小さいことに注意してください。xy=ln(x)x

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

さて、右スキュー分布では、いくつかの非常に大きな値があります。ログ変換は、基本的にこれらの値を分布の中心に巻き込み、正規分布のように見せます。


1

これらの答えはすべて、自然対数変換のセールスピッチです。その使用には注意事項があり、あらゆる変換に一般化できる注意事項があります。一般的なルールとして、すべての数学的変換は、圧縮、拡大、反転、再スケーリングなどの動作に関係なく、基礎となる生変数のPDFを再形成します。これが純粋に実用的な観点から提示する最大の課題は、予測が主要なモデル出力である回帰モデルで使用される場合、従属変数の変換、Y-hat、潜在的に重要な再変換バイアスの影響を受けます。自然対数変換はこのバイアスの影響を受けないことに注意してください。それらは、他の同様の機能を果たす変換ほど影響を受けません。このバイアスに対するソリューションを提供する論文がありますが、実際にはあまりうまくいきません。私の意見では、Yをまったく変換しようとせず、元のメトリックを保持できる堅牢な機能フォームを見つけることに煩わされることなく、はるかに安全な立場にいると思います。たとえば、自然対数の他に、逆双曲線正弦やランバートのWなど、歪んだ変数および尖度のある変数のテールを圧縮する他の変換があります。これらの変換はどちらも、対称PDFを生成するのに非常にうまく機能するため、ヘビーテールの情報からガウスのようなエラーを生成しますが、DV、Yの元のスケールに予測を戻すときにバイアスに注意してください。いことがあります。


3
これは、ヘビーテール分布での処理に集中しているようです(尖度とは、尖度が高いことを意味します)。それが質問にどのように関係しているかを説明する必要があると思います。同様に、Lambertのが質問にどのように関連しているかは明らかではありません。この点や、より広い家族の一員として期待されるように対数が振る舞うという点で、変換バイアスが関連する変換(どの変換?)平方根と逆数の間の効果の中間にある例。W
ニックコックス

3
私たちは皆、ルールのさまざまな側面に触れていますが、私たちの多くはルールの知恵に気付き、明白な制限を回避する建設的な方法を見つけたので、ここでやり取りを続けています。このルールは基本です。質問に答えない投稿は所属しません。各スレッドの一貫性、制限、クリーン、トピックを維持する傾向があります。他のQ&Aサイトで見つけるよりも有用で興味深い傾向がある素材を作成するための鍵です。
whuber

3
あなたはこれをいじくりましたが、私の見解では、答えとして非常に問題が残っています。1.あなたは、いくつかの方法で質問を広げています。例えば、同様に重尾分布を持ち込むことによって。それはいくつかのスレッドで行うのが合理的なことですが、ここでは高品質の回答を備えた焦点の合ったスレッドがあり、ここでの追加の回答は概して水を濁しています。質問に対する既存の適切な回答がある場合、新しい回答の本当に正当な理由がなければなりません。
ニックコックス

4
2.変換バイアスに関する主張は、手を振るままです。ログが他の同様の変換よりも問題が少ないという神秘的な主張を含む、クレームに一致する答えには技術的な正確さはありません。
ニックコックス

4
W

0

多くの興味深い点が指摘されています。さらにいくつかの?

1)線形回帰のもう1つの問題は、回帰式の「左側」がE(y):期待値であることをお勧めします。エラー分布が対称的でない場合、期待値の研究のメリットは弱いです。エラーが非対称である場合、期待値は重要ではありません。代わりに、変位値回帰を調べることができます。次に、エラーが非対称であっても、たとえば中央値または他のパーセンテージポイントの調査は価値があるかもしれません。

2)応答変数の変換を選択した場合、同じ関数を使用して1つ以上の説明変数を変換することができます。たとえば、応答として「最終」結果がある場合、説明変数として「ベースライン」結果がある場合があります。解釈のために、同じ機能を持つ変換「最終」と「ベースライン」を意味します。

3)説明変数を変換するための主な議論は、多くの場合、応答と説明関係の線形性に関するものです。最近では、制限付き3次スプラインや説明変数の分数多項式など、他のオプションを検討できます。ただし、直線性が見つかれば、確かに明確なことがよくあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.