主な関心のないすべての変数を対数変換しないのはなぜですか?


10

本やディスカッションでは、予測子、ログ変換imgの問題(いくつかあります)に直面した場合、それが可能性があるとしばしば述べられています。現在、これは分布に依存し、予測変数の正規性は回帰の仮定ではないことを理解しています。しかし、ログ変換はデータをより均一にし、外れ値などの影響を少なくします。

私はメイン変数以外のすべての連続変数、つまり調整するだけの変数をログ変換することを考えました。

それは間違っていますか?良い?役に立たない?

回答:


24

今、私はこれが予測変数の分布と正規性に依存することを理解しています

ログ変換はデータをより均一にします

一般的な主張として、これは誤りです---たとえそうであっても、なぜ均一性が重要なのでしょうか?

たとえば、

i)値1と2だけを取るバイナリ予測子。ログを取ると、値0とログ2だけを取るバイナリ予測子のままになります。これは、この予測子が関係する項の切片とスケーリング以外には何も影響しません。予測子のp値でさえ、近似値と同様に変化しません。

ここに画像の説明を入力してください

ii)左スキュー予測子を検討します。ログを取得します。通常、左スキューが大きくなります。

ここに画像の説明を入力してください

iii)均一なデータが左スキューになる

ここに画像の説明を入力してください

(ただし、常に極端な変更とは限りません)

外れ値の影響が少ない

一般的な主張として、これは誤りです。予測子の低い外れ値を検討してください。

ここに画像の説明を入力してください

主な関心事ではないすべての連続変数を対数変換することを考えました

何のために?もともと関係が線形であった場合、それらはもはや線形ではありません。

ここに画像の説明を入力してください

そして、それらがすでに湾曲している場合、これを自動的に行うと、状態が悪化する(より湾曲する)可能性があります。

-

予測子のログを取ること(主な関心の有無にかかわらず)は適切な場合がありますが、常にそうであるとは限りません。


2
この素晴らしい答えに感謝します。私たちの多く、少なくとも私は、それがこのように視覚化されるのを見る必要があったと思います。しかし、右に歪んだデータはログ変換の対象となることに同意しますか?他のスキューやフォームよりも多いですか?
Adam Robinsson、2014

1
通常はありません。非常に特定の条件下では、おそらく。
Glen_b-モニカを2014

β^=0.50

たとえば、幹の円周の周囲の数が1インチ増えると言うことができるよりも、木の平均の高さは足の半分だけ増加します。後者は解釈が簡単で、電卓なしでフィールドで計算するのが簡単です。
StatsStudent、2015年

10

私の意見では、ログ変換(さらに言えば データ変換)を実行するだけでは意味がありません。以前の回答で述べたように、データによっては、一部の変換が無効になるか、役に立たなくなります。私は非常に、次の私見優れた読みすることをお勧めいたします入門資料上のデータ変換http://fmwww.bc.edu/repec/bocode/t/transint.htmlを。このドキュメントのコード例はStata言語で記述されていますが、そうでない場合、ドキュメントは十分に汎用的であり、Stata以外のユーザーにも役立ちます。

正規性の欠如外れ値混合分布などの一般的なデータ関連の問題に対処するためのいくつかの簡単な手法とツールこの記事にあります(注意:混合分布に対処するためのアプローチとしての層別化は、おそらく最も単純なものです-これに対するより一般的で複雑なアプローチは、混合分析であり、有限混合モデルとも呼ばれます。その説明はこの回答の範囲を超えています)。ボックスコックス変換は、上記の2つの参考資料で簡単に述べたように、特に非正規データ(いくつかの注意事項があります)の場合、かなり重要なデータ変換です。Box-Cox変換の詳細については、こちらの紹介記事をご覧ください。


2
アレクサンダーへの大きな言及。必要な懐疑論を共有してくれてありがとう。ありがとう。
Adam Robinsson、2014

1
@AdamRobinsson:私の喜び、アダム!あなたが私の答えを気に入ってくれてうれしいです。
Aleksandr Blekh 2014

8

ログの変換は、常に状況を改善するわけではありません。明らかに、ゼロまたは負の値を達成する変数を対数変換することはできません。ゼロをハグする正の変数でさえ、対数変換すると負の外れ値が発生する可能性があります。

すべてを定期的にログに記録するだけでなく、モデルをフィッティングする前に、選択したポジティブ予測子(適切には、多くの場合はログですが、他の何か)を変換することを考えることをお勧めします。応答変数についても同様です。主題に関する知識も重要です。物理学や社会学の理論や、自然に特定の変化をもたらす可能性のあるもの。一般に、明確に歪んでいる変数が表示される場合は、ログ(または平方根または逆数)が役立ちます。

一部の回帰テキストは、変換を検討する前に診断プロットを確認する必要があることを示唆しているようですが、私は同意しません。私は、モデルをフィッティングする前に、これらの選択を行うときにできる限りの最善の仕事をすることをお勧めします。次に、診断を見て、そこから調整する必要があるかどうかを確認します。


これらの考慮事項は、重要な予測変数と重要でない予測変数の両方に適用されると、すべてが付け加えています。
Russ Lenth 2014

@rvl、ありがとう!いつ、どのように変換を選択するかの不一致にいつも戸惑っています。本はしばしば、あなたが書いたように、回帰に触れる前にすべての変数の形式をチェックする必要があると述べています。あなたの洞察を提供してくれてありがとう。
Adam Robinsson、2014

@rvl、回答ありがとうございます。snoqこのCrossValidatedスレッドでデータセットをログ変換しますか(ゴールは混合ガウス分布に適合することを念頭に置いてください)?
ジュバーブ2015

-3

1)カウントデータ(y> 0)-> log(y)またはy = exp(b0 + biXi)2)カウントデータ+ゼロ(y> = 0)->ハードルモデル(binomial + count reg。)3)すべて典型的な影響(&エラー)は加算されます4)分散〜平均-> log(y)またはy = exp(b0 + biXi)5)...


この答えは読みにくく、質問に答えようとしているかどうかは不明です。
Juho Kokkala、2015年

1
テレグラフィックでフォーマットされていないプレゼンテーションでは、この答えは理解できません。アイデアを英語に拡張してを使用できると思いますかTEX
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.