少数の連続変数の対数変換を行う理由は何ですか?


16

私は分類の問題をやっており、多くの人々のコードとチュートリアルを読んでいます。私が気づいたことの1つは、多くの人がnp.log、またはなどのlogような連続変数を取得していることですloan_amountapplicant_income

その理由を理解したいだけです。モデルの予測精度を向上させるのに役立ちますか。必須ですか?またはその背後にあるロジックはありますか?

可能であれば、いくつかの説明を提供してください。ありがとうございました。

回答:


27

これは、変数が数桁にわたる場合に行われます。収入は典型的な例です。その分布は「べき法則」です。つまり、収入の大部分は小さく、ほとんどの収入は大きくありません。

このタイプの「ファットテール」分布は、対数の数学的特性のため、対数スケールで研究されます。

log(xn)=nlog(x)

含意する

log(104)=4log(10)

そして

log(103)=3log(10)

これにより、大きな差

104103
がより小さい 値に変換されます
43
値を比較可能にします。


2
特に指数分布について説明している素晴らしい回答。
カスラマンシャエイ

1
@KasraManshaei特に力の法則について話していました(典型的な例は収入です):指数分布の極値は定義上非常にまれです。したがって、多くの桁にわたるデータは通常、べき乗則です。
ドッチオピオ

1
しかし、もちろんそのような場合には---> lnを記録します。これは答えのポイントを絶対に変更しません。
ドッチオピオバニ

よし、分った。あなたが言ったように、あまり変化はありません。
カスラマンシャエイ

6

ほとんどの場合、分布が歪んでいるためです。対数は変数のダイナミックレンジを自然に縮小するため、スケールがそれほど大きく歪まない限り、差異は保持されます。一部の人々が1億人のローンを受け取り、一部の人々が10000人と0人を獲得したことを想像してください。対数は問題を解決します。


Manshael、だから私はMinMaxScalerまたはStandardScalerを使用できますか?またはログを取る必要がありますか?
サイ・クマール

必要。スケーラーを使用すると、小さな値が劇的に圧縮されます。それが私が言いたいことです。
カスラマンシャエイ

2
はい。1000,000,000および10000の値と0を考慮する場合。多くの場合、最初のものは大きすぎて、モデルが他の人を適切に見ることができません。ただし、対数を取る場合は、それぞれ9、4、および0になります。ご覧のとおり、ダイナミックレンジは縮小されますが、違いはほとんど維持されます。これは、機能の指数関数的な性質に由来します。これらの場合、描かれている他の答えとして対数が必要です。それが
役に立てば幸いです

2
さて、スケーリング!正規分布の2つの変数(対数は不要)を想像してください。1つは10ishのスケールで、もう1つは数百万のスケールです。再びモデルにそれらを与えると、小さなものが見えなくなります。この場合、スケーラーを使用してスケールを合理的にします。
カスラマンシャエイ

1
@KasraManshaei log(0)= -infしかし。
JAD

5

ログバツ0<バツ<、たとえば、ローンや収入など、基本的に負になり得ないものであれば、ドメインは <ログバツ<

これは、特に戻り変数で、使用しているモデルが分布の仮定に基づいている場合に役立ちます。 バツ。たとえば、線形モデルの正規性の仮定。


3

対数変換が有用なさらに別の理由は、という事実のために、比率データに関係していlog(A/B) = -log(B/A)ます。生のスケールで比率の分布をプロットすると、ポイントはの範囲に入り(0, Inf)ます。1未満の比率はプロットの小さな領域に押し込まれ、さらに、比率をの(B/A)代わりにに切り替えると、プロットは完全に異なって見えます(A/B)。これを対数目盛で行うと、範囲はになり(-Inf, +Inf)、1より小さい比率と1より大きい比率がより均等に分散されることを意味します。比率を反転することにした場合は、プロットを0の周りに反転するだけです。それ以外はまったく同じに見えます。対数スケールでは、比率をとして表示するかどうかは重要ではありません1/10 or 10/1。これは、比率を明確に選択できない場合に役立ちます。


3

対数正規分布を見てください。

人々は、スケールなどを圧縮すると考えるためにログを使用するかもしれませんが、ログの原則的な使用法は、対数正規分布を持つデータを操作することです。これは、すべての価値がプラスであり、ほとんどが比較的控えめですが、一部は非常に大きい給与、住宅価格などのようなものになる傾向があります。

データのログを取ることができ、それが正常になった場合、明確な平均、標準偏差(したがってzスコア)、対称性などの正規分布の多くの機能を利用できます。

同様に、ログの追加は、ログなしの値の乗算と同じです。つまり、エラーが加法的な分布(つまり、パーセンテージベース)に変わったということです。OLS回帰などの手法では、通常のエラー分布が必要になるため、ログを使用すると、その適用範囲が加算プロセスから乗算プロセスに拡張されます。


1
分布のない方法でアイテムを比較したい場合は、パーセンタイルまたは十分位数を取り、元の値の代わりにそれらを使用する方が良いでしょうか?
ウィリアムペイン

1
@WilliamPayne確かに、分布のない方法を使用できますが、分布の仮定が正しい場合は、分布を持つ力もいくらか放棄しています。より大きな(正しい)仮定により、より大きな力がもたらされます。パーセンタイルは基本的にランクであるため、持っている距離情報を破棄し、特定のサンプルのパーセンタイルはポイント推定値です。通常、ポイントよりも分布を好みます。
ウェイン

0

主な理由は分布ではなく、非線形の関係にあると思います。ログはしばしば飽和関係をキャプチャします...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.