回答:
私のようなエコノミストは、ログ変換が大好きです。このような回帰モデルで特に気に入ってい:
どうしてそんなに好きなの?以下は、講義するときに生徒に与える理由のリストです。
統計学者は一般に、経済学者がこのデータの特定の変換について過度に熱心であると感じています。これは、彼らが私のポイント8と私のポイント3の後半が非常に重要であると判断したからだと思います。したがって、データが対数正規分布していない場合、またはデータのログを記録しても、観測間で等しい分散をもつ変換データが得られない場合、統計学者は変換をあまり好まない傾向があります。経済学者はとにかく先に飛び込む可能性が高い。なぜなら、私たちが転換について本当に気に入っているのはポイント1、2、4-7であるからだ。
まず、正しいスキューのログを取得した場合に通常起こることを見てみましょう。
上の行には、3つの異なる、ますます歪んだ分布からのサンプルのヒストグラムが含まれています。
一番下の行には、ログのヒストグラムが含まれています。
中央のケース()が対称に変換され、より緩やかな右スキューのケース()がやや左スキューになっていることがわかります。一方、最大のスキュー変数()は、ログを取得した後でも、まだ(わずかに)右スキューです。
分布をより正常に見せたい場合、変換により2番目と3番目のケースが確実に改善されました。これが役立つ可能性があることがわかります。
それではなぜ機能するのでしょうか?
分布形状の図を見ているとき、平均または標準偏差を考慮していないことに注意してください-これは軸上のラベルにのみ影響します。
したがって、ある種の「標準化された」変数を見ると想像できます(プラスのままで、すべてが同様の位置と広がりを持っている、など)
ログを取得すると、中央値に対して右側の極端な値(高い値)が「引き込まれ」、一方、左端の値(低い値)は中央値からさらに離れて引き戻される傾向があります。
最初の図では、、、および平均はすべて178に近く、すべての中央値は150に近く、ログの中央値はすべて5に近い。
元のデータを見ると、右端の値(約750など)が中央値をはるかに上回っています。の場合、中央値より上の5つの四分位範囲です。
しかし、ログを取得すると、中央値に引き戻されます。ログを取った後、中央値より約2四分位範囲だけです。
一方、30のような低い値(サイズ1000のサンプルでは4つの値のみがそれより下です)は、の中央値より1四分位範囲より少し小さいです。ログを取得すると、新しい中央値より約2四分位範囲になります。
log(750)とlog(30)の両方がlog(y)の中央値からほぼ同じ距離になったときに、750/150と150/30の比率が両方とも5になることは偶然ではありません。それがログの仕組みです-一定の比率を一定の差に変換します。
ログが顕著に役立つとは限りません。たとえば、対数正規確率変数を取り、それを実質的に右にシフト(つまり、大きな定数を追加)して、平均が標準偏差に比べて大きくなる場合、その対数を取ると、形状。スキューは少なくなりますが、かろうじてです。
しかし、他の変換(たとえば平方根)も大きな値をそのように引き込みます。ログが特に人気があるのはなぜですか?
前のパートの最後で、1つの理由に触れました-一定の比率は一定の差になりがちです。これにより、ログの解釈が比較的容易になります。これは、一定の割合の変化(一連の数値のすべてに対して20%の増加など)が一定のシフトになるためです。したがって、元の数値がどれほど大きくても、自然対数の減少は、元の数値の15%の減少です。
たとえば、多くの経済データと財務データはこのように動作します(パーセンテージスケールに対する一定またはほぼ一定の影響)。その場合、ログスケールは非常に理にかなっています。さらに、その割合スケール効果の結果として。値の広がりは平均が増加するにつれて大きくなる傾向があり、ログを取ることも広がりを安定させる傾向があります。通常、それは正常性よりも重要です。実際、元の図の3つの分布はすべて、標準偏差が平均とともに増加するファミリからのものであり、それぞれの場合、ログを取ることで分散が安定します。[ただし、これはすべての正しいスキューデータでは発生しません。特定のアプリケーション分野で発生するデータの種類では非常に一般的です。]
また、平方根によって物事がより対称的になる場合もありますが、ここでの例で使用するよりも分布のゆがみが少ない場合に発生する傾向があります。
(かなり簡単に)3つのより緩やかな右スキューの例の別のセットを構築できました。平方根は1つの左スキュー、1つの対称を作成し、3つ目はまだ右スキューでした(ただし、以前よりも少し少ないスキュー)。
左スキュー分布についてはどうですか?
対数変換を対称分布に適用すると、同じ理由で左に歪む傾向があります。これは、右の歪曲をより対称的にすることが多いためです。関連する説明を参照してください。
すでにスキュー残って何かにログ変換を適用した場合に対応して、それはそれも作る傾向がありますより、スキュー放置しても、より緊密に中央値を超えるものを引っ張って、さらに困難中央下、以下のものをストレッチ。
そのため、ログ変換は役に立ちません。
電力変換 / Tukeyの梯子も参照してください。左にゆがんだ分布は、べき乗(1より大きい-二乗する)を取るか、累乗することにより、より対称的にすることができます。明らかな上限がある場合は、上限から観測値を減算し(右に歪んだ結果が得られる)、それを変換しようとします。
log関数は、本質的に非常に大きな値を強調しません。を示す以下の画像を見てください。軸の値が軸で比較的小さいことに注意してください。x
さて、右スキュー分布では、いくつかの非常に大きな値があります。ログ変換は、基本的にこれらの値を分布の中心に巻き込み、正規分布のように見せます。
これらの答えはすべて、自然対数変換のセールスピッチです。その使用には注意事項があり、あらゆる変換に一般化できる注意事項があります。一般的なルールとして、すべての数学的変換は、圧縮、拡大、反転、再スケーリングなどの動作に関係なく、基礎となる生変数のPDFを再形成します。これが純粋に実用的な観点から提示する最大の課題は、予測が主要なモデル出力である回帰モデルで使用される場合、従属変数の変換、Y-hat、潜在的に重要な再変換バイアスの影響を受けます。自然対数変換はこのバイアスの影響を受けないことに注意してください。それらは、他の同様の機能を果たす変換ほど影響を受けません。このバイアスに対するソリューションを提供する論文がありますが、実際にはあまりうまくいきません。私の意見では、Yをまったく変換しようとせず、元のメトリックを保持できる堅牢な機能フォームを見つけることに煩わされることなく、はるかに安全な立場にいると思います。たとえば、自然対数の他に、逆双曲線正弦やランバートのWなど、歪んだ変数および尖度のある変数のテールを圧縮する他の変換があります。これらの変換はどちらも、対称PDFを生成するのに非常にうまく機能するため、ヘビーテールの情報からガウスのようなエラーを生成しますが、DV、Yの元のスケールに予測を戻すときにバイアスに注意してください。いことがあります。
多くの興味深い点が指摘されています。さらにいくつかの?
1)線形回帰のもう1つの問題は、回帰式の「左側」がE(y):期待値であることをお勧めします。エラー分布が対称的でない場合、期待値の研究のメリットは弱いです。エラーが非対称である場合、期待値は重要ではありません。代わりに、変位値回帰を調べることができます。次に、エラーが非対称であっても、たとえば中央値または他のパーセンテージポイントの調査は価値があるかもしれません。
2)応答変数の変換を選択した場合、同じ関数を使用して1つ以上の説明変数を変換することができます。たとえば、応答として「最終」結果がある場合、説明変数として「ベースライン」結果がある場合があります。解釈のために、同じ機能を持つ変換「最終」と「ベースライン」を意味します。
3)説明変数を変換するための主な議論は、多くの場合、応答と説明関係の線形性に関するものです。最近では、制限付き3次スプラインや説明変数の分数多項式など、他のオプションを検討できます。ただし、直線性が見つかれば、確かに明確なことがよくあります。