ロジスティック回帰の歪んだ分布


8

私は英国の頭部外傷の全国的外傷データベースからの遡及的データに基づいてロジスティック回帰モデルを開発しています。主な結果は30日間の死亡率です(Outcome30メジャーとして示されます)。以前の研究での転帰に対する有意な影響の公表された証拠を伴うデータベース全体にわたる他の測定には以下が含まれます:

Yeardecimal - Date of procedure = 1994.0-2013.99
inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a separate diagnosis)
ISS - Injury Severity Score = 1-75
Age - Age of patient = 16.0-101.5
GCS - Glasgow Coma Scale = 3-15
Sex - Gender of patient = Male or Female
rcteyemi - Pupil reactivity (1 = neither, 2 = one, 3 = both)
neuroFirst2 - Location of admission (Neurosurgical unit or not)
Other - other traums (0 - No, 1 - Yes)
othopYN - Other operation required
LOS - Length of stay in days
LOSCC - Length of stay in critical care in days 

変数の単変量分析を実行するとき、各連続変数に対してロジスティック回帰を実行しました。ただし、Yeardecimalをモデル化できず、次の結果になります。

> rcs.ASDH<-lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1)
singular information matrix in lrm.fit (rank= 1 ).  Offending variable(s):
Yeardecimal 
Error in lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1) : 
  Unable to fit model using lrm.fit

ただし、制限された3次スプラインは機能します。

> rcs.ASDH<-lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)
> 
> rcs.ASDH

Logistic Regression Model

lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          5998    LR chi2     106.61    R2       0.027    C       0.578    
 0           1281    d.f.             4    g        0.319    Dxy     0.155    
 1           4717    Pr(> chi2) <0.0001    gr       1.376    gamma   0.160    
max |deriv| 2e-08                          gp       0.057    tau-a   0.052    
                                           Brier    0.165                     

               Coef     S.E.    Wald Z Pr(>|Z|)
Intercept      -68.3035 45.8473 -1.49  0.1363  
Yeardecimal      0.0345  0.0229  1.51  0.1321  
Yeardecimal'     0.1071  0.0482  2.22  0.0262  
Yeardecimal''   -2.0008  0.6340 -3.16  0.0016  
Yeardecimal'''  11.3582  4.0002  2.84  0.0045  

なぜ誰かがこれを説明できますか?より単純なアプローチでモデル化できない場合、モードが複雑なモデルを使用することに不安を感じています。

現在、制限付き3次スプラインを使用して、Age、ISS、およびYeardecimalをモデル化しています。誰か他のアプローチをお勧めしますか?


4
必須ではありませんが、スプライン基準を作成する前に、より歪んだ予測子のいくつかを変換して、非常に高いレバレッジを持つデータポイントが存在しないようにするのが賢明な場合があります。
Scortchi-モニカの回復

StasKの答えが正しいか@かどうかを確認するには、バニラでこれをしようと考えるglmのとおり、機能r.789695.n4.nabble.com/...
shadowtalker

回答:


7

予測子としての日付は、定数と非常に同一直線上にあるため、失敗している可能性があります。年として入力すると、その変動性は約10/2000 = 0.005(ほとんどのデータが最近の年であるため実際には少なくなります)であり、2乗すると4e-6になります。固有値が1と4e-6の行列を反転する場合、使用するパッケージによって、有限精度演算でゼロであると判断され、このエラーメッセージがスローされる場合があります。ソリューションはシンプルです。少なくとも年から2000を引くことにより、少なくともおよそデータを中央に配置します。


1
これで問題は解決しました。説明ありがとうございます。
Dan Fountain

わかりません。それはかなり良い日付の範囲です。
フランクハレル2014

5

制限付きの3次スプラインは、ここでうまく機能すると予想されます。予測変数の周辺分布について少し心配しすぎています。

滞在期間は因果経路の間違った部分にあり、それを死亡の予測因子として使用します。そして、必要な他の操作に注意してください。

単変量解析ではあまり価値がありません。


ありがとうございました。私は同意しますが、伝統的に一変量の結果が文献で求められています。線形項のときにロジスティック回帰がYeardecimalのエラーを実行している理由は何ですか?
Dan Fountain

5
フランク・ハレルはIS 文学
StasK、2014

2
申し訳ありませんが、私は硬膜下血腫の転帰の研究に言及していました。
Dan Fountain
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.