回答:
今、私はこれが予測変数の分布と正規性に依存することを理解しています
ログ変換はデータをより均一にします
一般的な主張として、これは誤りです---たとえそうであっても、なぜ均一性が重要なのでしょうか?
たとえば、
i)値1と2だけを取るバイナリ予測子。ログを取ると、値0とログ2だけを取るバイナリ予測子のままになります。これは、この予測子が関係する項の切片とスケーリング以外には何も影響しません。予測子のp値でさえ、近似値と同様に変化しません。
ii)左スキュー予測子を検討します。ログを取得します。通常、左スキューが大きくなります。
iii)均一なデータが左スキューになる
(ただし、常に極端な変更とは限りません)
外れ値の影響が少ない
一般的な主張として、これは誤りです。予測子の低い外れ値を検討してください。
主な関心事ではないすべての連続変数を対数変換することを考えました
何のために?もともと関係が線形であった場合、それらはもはや線形ではありません。
そして、それらがすでに湾曲している場合、これを自動的に行うと、状態が悪化する(より湾曲する)可能性があります。
-
予測子のログを取ること(主な関心の有無にかかわらず)は適切な場合がありますが、常にそうであるとは限りません。
私の意見では、ログ変換(さらに言えば、 データ変換)を実行するだけでは意味がありません。以前の回答で述べたように、データによっては、一部の変換が無効になるか、役に立たなくなります。私は非常に、次の私見優れた読みすることをお勧めいたします入門資料上のデータ変換:http://fmwww.bc.edu/repec/bocode/t/transint.htmlを。このドキュメントのコード例はStata言語で記述されていますが、そうでない場合、ドキュメントは十分に汎用的であり、Stata以外のユーザーにも役立ちます。
正規性の欠如、外れ値、混合分布などの一般的なデータ関連の問題に対処するためのいくつかの簡単な手法とツールがこの記事にあります(注意:混合分布に対処するためのアプローチとしての層別化は、おそらく最も単純なものです-これに対するより一般的で複雑なアプローチは、混合分析であり、有限混合モデルとも呼ばれます。その説明はこの回答の範囲を超えています)。ボックスコックス変換は、上記の2つの参考資料で簡単に述べたように、特に非正規データ(いくつかの注意事項があります)の場合、かなり重要なデータ変換です。Box-Cox変換の詳細については、こちらの紹介記事をご覧ください。
ログの変換は、常に状況を改善するわけではありません。明らかに、ゼロまたは負の値を達成する変数を対数変換することはできません。ゼロをハグする正の変数でさえ、対数変換すると負の外れ値が発生する可能性があります。
すべてを定期的にログに記録するだけでなく、モデルをフィッティングする前に、選択したポジティブ予測子(適切には、多くの場合はログですが、他の何か)を変換することを考えることをお勧めします。応答変数についても同様です。主題に関する知識も重要です。物理学や社会学の理論や、自然に特定の変化をもたらす可能性のあるもの。一般に、明確に歪んでいる変数が表示される場合は、ログ(または平方根または逆数)が役立ちます。
一部の回帰テキストは、変換を検討する前に診断プロットを確認する必要があることを示唆しているようですが、私は同意しません。私は、モデルをフィッティングする前に、これらの選択を行うときにできる限りの最善の仕事をすることをお勧めします。次に、診断を見て、そこから調整する必要があるかどうかを確認します。
snoq
このCrossValidatedスレッドでデータセットをログ変換しますか(ゴールは混合ガウス分布に適合することを念頭に置いてください)?
1)カウントデータ(y> 0)-> log(y)またはy = exp(b0 + biXi)2)カウントデータ+ゼロ(y> = 0)->ハードルモデル(binomial + count reg。)3)すべて典型的な影響(&エラー)は加算されます4)分散〜平均-> log(y)またはy = exp(b0 + biXi)5)...