大規模な調査データ、バイナリ結果変数、およびバイナリと連続を含む多くの説明変数があります。私はモデルセット(GLMと混合GLMの両方で実験)を構築し、情報理論的アプローチを使用して最上位モデルを選択しています。説明(連続およびカテゴリの両方)について相関関係を注意深く調べ、ピアソンまたはフィコール係数が0.3未満の同じモデルの説明のみを使用しています。すべての連続変数に、最上位モデルと競合するための公正な機会を与えたいと思います。私の経験では、必要なものをスキューに基づいて変換すると、それらが参加するモデルが改善されます(AICが低下します)。
私の最初の質問は次のとおりです。変換はロジットの線形性を改善するため、この改善はありますか?または、スキューを修正することで、データをより対称にすることで、説明変数のバランスがどういうわけか改善されますか?私はこれの背後にある数学的理由を理解したいと思いますが、今のところ、誰かがこれを簡単な言葉で説明できればそれは素晴らしいでしょう。私が使用できる参照があれば、私はそれを本当に感謝します。
多くのインターネットサイトでは、正規性はバイナリロジスティック回帰の仮定ではないため、変数を変換しないでください。しかし、変数を変換しないことにより、他のものと比較して不利な点を残し、トップモデルが何であるかに影響を与え、推論を変更する可能性があると感じています(まあ、通常はそうではありませんが、一部のデータセットではそうです)。いくつかの変数は、対数変換された場合、2乗された場合(スキューの方向が異なる場合)、および一部が変換されない場合にパフォーマンスが向上します。
ロジスティック回帰の説明変数を変換するときに注意すべき点をガイドラインで教えてもらえますか。それができない場合は、なぜそうしないのですか?