ロジスティック回帰の連続変数を変換する


11

大規模な調査データ、バイナリ結果変数、およびバイナリと連続を含む多くの説明変数があります。私はモデルセット(GLMと混合GLMの両方で実験)を構築し、情報理論的アプローチを使用して最上位モデルを選択しています。説明(連続およびカテゴリの両方)について相関関係を注意深く調べ、ピアソンまたはフィコール係数が0.3未満の同じモデルの説明のみを使用しています。すべての連続変数に、最上位モデルと競合するための公正な機会を与えたいと思います。私の経験では、必要なものをスキューに基づいて変換すると、それらが参加するモデルが改善されます(AICが低下します)。

私の最初の質問は次のとおりです。変換はロジットの線形性を改善するため、この改善はありますか?または、スキューを修正することで、データをより対称にすることで、説明変数のバランスがどういうわけか改善されますか?私はこれの背後にある数学的理由を理解したいと思いますが、今のところ、誰かがこれを簡単な言葉で説明できればそれは素晴らしいでしょう。私が使用できる参照があれば、私はそれを本当に感謝します。

多くのインターネットサイトでは、正規性はバイナリロジスティック回帰の仮定ではないため、変数を変換しないでください。しかし、変数を変換しないことにより、他のものと比較して不利な点を残し、トップモデルが何であるかに影響を与え、推論を変更する可能性があると感じています(まあ、通常はそうではありませんが、一部のデータセットではそうです)。いくつかの変数は、対数変換された場合、2乗された場合(スキューの方向が異なる場合)、および一部が変換されない場合にパフォーマンスが向上します。

ロジスティック回帰の説明変数を変換するときに注意すべき点をガイドラインで教えてもらえますか。それができない場合は、なぜそうしないのですか?


2
実際、ロジスティック回帰では、正規性(またはこの場合はロジスティック分布)の仮定はありません。リンク関数(時々示さ)観察する確率との関係をモデル化するために使用されている(介して共変量を有する)。リンク機能の選択が原因で、フィット/パフォーマンス低下している可能性があります。この問題を分類する別の方法は、より柔軟なディストリビューションを使用することです。たとえば、このペーパーを参照してください。FF110P(Y=1|β,X)=F(Xβ)

別のコンテキストで書かれていますが、あなたが求めていることの多くは、私の答え(または私の答えのリンク)にあります。正規分布のXとYは、正規分布の残差になる可能性が高いですか?
ガン-モニカを元に戻す

回答:


3

統計的な理由に基づいて変数を変換するかどうかを慎重に判断する必要があります。あなたは解釈を見なければなりません。your応答がで線形であることは理にかなっていますか?またはそれはおそらく線形ですか?そしてそれを議論するために、私たちはあなたの変数を知る必要があります...ちょうど例として:モデルの適合とは無関係に、私は死亡率が年齢の線形関数であるとは信じません!xlog(x)

「大きなデータ」があると言うので、スプラインを調べて、変換についてデータに語らせることができます。たとえば、Rにmgcvをパッケージ化します。究極のテストは、何が科学的に意味があるかを自問することです。yourあなたの分野の他の人々は同様のデータで何をしていますか?


私の心配をサポートしてくれてありがとう:確かに、私は生物学的に意味のあることについては考えています。問題は、実際には2つの関連データセットがあり、両方から同時に結論を出したいということです。ただし、1つのサブセットでは、密度変数は変換されていないモデルで最適ですが、他の対数変換では最適です。ログ変換により、その変数の値が低いデータセットの関係が改善されるため、両方の変数を変換しないままにしない限り、これら2つのデータセットを調整することは非常に困難です。
Zsuzsa

1
ある分野の専門家は、変数の「正しい」変換を演繹的に知ることはほとんどできません。線形関係はほとんど見たことがないので、サンプルサイズが必要な場合は、回帰スプラインを使用してこの仮定を緩和します。結果を写真で解釈できるようにします。
フランクハレル2014

3

重要な問題は、現実の世界で何を表すことになっているのか、そしてこれらの変数と従属変数の間の仮説の関係は何かです。データを「クリーンアップ」することでモデルを改善することができますが、それが現実の世界をより適切に反映していない場合、成功していません。データの分布がモデリングのアプローチが正しくないことを意味している可能性があり、まったく異なるアプローチが必要な場合があります。データに問題がある可能性があります。

変数がcorr> .3の場合に変数を削除する理由は私を超えています。多分それらは本当に関連していて、両方とも従属変数にとって重要です。これは、相関変数の共同寄与を表すインデックスまたは関数で処理できます。任意の統計的基準に基づいて盲目的に情報を捨てているようです。corr> .31、または.33を使用しないのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.