が大きい場合のネストされたバイナリロジスティック回帰モデルの比較


10

より良い私の質問をするために、私は16変数モデル(両方からの出力のいくつか提供しているfit)と17変数モデル(fit2下記)を(これらのモデル内のすべての予測変数は、これらのモデル間の唯一の違いはそれがどこにあるか、連続してfitいません変数17(var17)を含む):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

rmsこれらのlrmモデルの作成には、フランクハレルのパッケージを使用しました。ご覧のように、これらのモデルは、識別インデックスランクディスクリクル全体で、たとえあったとしても、それほど変化していないようです。インデックス ; ただし、を使用lrtest(fit,fit2)すると、次の結果が得られました。

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

そのため、この尤度比検定の帰無仮説を棄却します。ただし、これはサンプルサイズが大きい(n = 102849)ためと考えられます。これらのモデルは同様の方法で実行されているように見えるためです。さらに、nが大きい場合にネストされたバイナリロジスティック回帰モデルを正式に比較するより良い方法を見つけることに興味があります。

これらのタイプのネストされたモデルを比較するという観点から、私を正しい方向に導くことができるフィードバック、Rスクリプト、またはドキュメントに非常に感謝します!ありがとう!


変数17を削除する目的は何ですか?
Michael M

これはおもちゃの例です。ただし、通常は8〜12個の変数を使用してモデルを作成するように求められ、モデルに寄与しない変数を削除することが私にとって主な関心事です。変数17は(予測可能性の観点から)モデル全体でほとんど意味がないように見えますが、尤度比テストは2つのモデル間に有意差があることを示しています(おそらくこれらの実際の差ではなく、nが大きいためです)2つのモデル)。そのため、これらの2つのモデルを比較する方法を見つけることを望んでいます(これらの2つのモデルの違いを示さない方法を見つけます)
Matt Reichenbach

(1)探しているものがよくわかりません。しかし医学では、c-statisticのような差別の使用に関する問題は十分に確立されており、c- staticは有意な変数を追加しても変化しない可能性があり、再分類インデックスの開発につながりました(circ.ahajournals.org/content/121/15/ 1768.full)(2)AIC / BICは類似していますか?さまざまな情報獲得基準が、識別基準よりも役立つ場合があります。
charles、2013年

1
最初の段落にタイプミスがあると思います。はfit217変数モデルと記載されていますが、を省略したモデルでもありV17ます。これを編集したいかもしれません。
tomka

1
@tomka、私はあなたの訂正に従って上の例で変更fit2fitました。ありがとう!
Matt Reichenbach、

回答:


6

(1)制限された/節約されたモデルよりも完全なモデルを好む理由に関する広範な文献があります。私の理解は、節約的なモデルを好むいくつかの理由です。ただし、より大きなモデルは、多くの臨床アプリケーションでは実現できない場合があります。

(2)私の知る限り、識別/識別インデックスは、モデル/変数選択パラメーターとして使用されていません(使用してはいけません)。これらはこの使用を目的としていないため、モデルの構築に使用してはならない理由についての文献があまりない可能性があります。

(3)簡潔なモデルには、すぐには明らかにならない制限がある場合があります。より大きなモデルよりも十分にキャリブレーションされていない可能性があり、外部/内部の有効性が低下する可能性があります。

(4)c統計は、将来のリスクを予測したり、個人をリスクカテゴリに層別したりするモデルの評価に最適ではない可能性があります。この設定では、キャリブレーションはリスクを正確に評価するために重要です。たとえば、オッズ比が3のバイオマーカーは統計にほとんど影響を与えない可能性がありますが、レベルの増加は個々の患者の推定10年心血管リスクを8%から24%にシフトする可能性があります

NRを調理します。医学文献におけるROC曲線の使用と誤用。サーキュレーション。115 2007:928-935。

(5)AUC / c-statistic / discriminationは、有意な予測変数に鈍感であることが知られています。これについては、上記のクックリファレンスで説明されています。上記のクックでも説明されています。

(6)標準の変数選択方法が使用されている場合、大規模なデータセットでも、必要以上に大きなモデルにつながる可能性があります。段階的な選択手順では、0.05のp値カットオフが使用されることがよくあります。しかし、この値に固有のものはありません。つまり、この値を選択する必要があります。小さいデータセットでは、大きいp値(0.2)がより適切であり、大きいデータセットでは、小さいp値が適切である場合があります(この理由により、GUSTO Iデータセットには0.01が使用されました)。

(7)AICはモデル選択によく使用され、文献によってより適切にサポートされますが、BICはより大きなデータセットでは有効な代替手段になる可能性があります。BICモデルの選択では、カイ2乗はlog(n)を超える必要があるため、大きなデータセットでは小さなモデルになります。(アオイにも同様の特徴があるかもしれません)

(8)ただし、最大で10または12の変数が必要なbestglm場合leaps、考慮したい変数の最大数を設定するだけで、パッケージやパッケージのような簡単な解決策が得られます。

(9)2つのモデルが同じように見えるテストだけが必要で、詳細についてあまり心配していない場合は、2つのモデルのAUCを比較できます。一部のパッケージでは、比較のためのp値も提供されます。賢明ではないようです。

Ambler G(2002)予後モデルの単純化:臨床データに基づくシミュレーション研究
Cook NR; 医学文献におけるROC曲線の使用と誤用。サーキュレーション。115 2007:928-935。
ゲイルMH、ファイファーRM; 絶対リスクのモデルを評価するための基準について。バイオスタット。6 2005:227-239。

(10)モデルが作成されたら、c統計/間引きインデックスはモデルを比較するための最良のアプローチではない場合があり、十分に文書化された制限があります。比較には、少なくともキャリブレーション、再分類インデックスも含まれているはずです。

Steyerber(2010)予測モデルのパフォーマンスの評価:いくつかの伝統的および新規の対策のフレームワーク

(11)上記を超えて、意思決定分析手段を使用することは良い考えかもしれません。

ビッカースAJ、エルキンEB。決定曲線分析:予測モデルを評価するための新しい方法。メッド意思決定。2006; 26:565-74。
ベイカーSG、クックNR、ビッカースA、クレイマーBS。相対効用曲線を使用してリスク予測を評価します。JR Stat Soc A. 2009; 172:729-48。
ヴァンカルスターB、ビッカースAJ、ペンシナMJ、ベイカーSG、ティマーマンD、シュタイアーバーグEW。マーカーとリスク予測モデルの評価:NRIと意思決定分析指標の関係の概要。メッド意思決定。2013; 33:490-501

---更新---ビッカースの記事が最も興味深いと思います。しかし、多くの社説にもかかわらず、これはまだ広く受け入れられていません。したがって、あまり実用的ではないかもしれません。クックとシュタイアーバーグの記事ははるかに実用的です。

段階的な選択が好きな人はいません。私は確かにそれを擁護するつもりはありません。私は、stepwiseの批判のほとんどがEPV <50であり、完全なモデルまたは事前に指定されたモデルと縮小モデルの間の選択を想定していることを強調します。EPV> 50で、削減モデルへの取り組みがある場合、費用便益分析は異なる場合があります。

c統計を比較することの背後にある弱い考えは、それらが異なっていない可能性があるということであり、私はこのテストが非常に力不足であることを覚えているようです。しかし、今は参照を見つけることができないので、それに基づいてかなり離れているかもしれません。


(1)完全なモデルが好ましいことは承知していますが、1kを超える変数から選択でき、業界固有の要件により、これらの小さいモデルを構築する必要があります。(2)それは理にかなっています!(3)同意した!(4)正しい(5)興味深い
Matt Reichenbach、

(6)同意した。ただし、ステップワイズ法はそのままでは非常に疑わしく、p値のカットオフが低いほど、サンプルサイズに関係なく、これらのタイプのモデルにバイアスがかかります。(7)「BICモデル選択の場合、カイ2乗はlog(n)を超える必要があります」、これは非常に便利なようです。ありがとう!(8)bestglmleapsパッケージは非常に計算コストが高く、私が使用しているようなデータセットで実行するには数日かかりますが、潜在的なアイデアをありがとうございます。
Matt Reichenbach、

(9)これらのp値は、サンプルサイズが大きいためにモデルがほとんど同じであっても有意です。(10)校正と再分類インデックスをもっと研究する必要があります、ありがとう!(11)これらの記事を読むことに非常に興味があります。ビッカースから始めることをお勧めしますか?ありがとう!
Matt Reichenbach、

5

1つのオプションは、両方のモデルに疑似R二乗測定を使用することです。疑似R二乗の大きな違いは、V17を省略することでモデルの近似が大幅に減少することを示唆します。

さまざまな種類の疑似R乗があります。概要はここにあります。例えば:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

人気のあるメジャーは、Nagelkerke R-squareです。これは0と1の間で変化し、注意して、単純な線形回帰モデルからのR-2乗のように解釈できます。これは、完全モデルの推定尤度と切片のみのモデルの変換された比率に基づいています。

fitfit2についてそれぞれ見積もり、相対サイズを比較して問題の兆候を得ることができます。以下のための実質的に高いNagelkerke R-広場はfitそのことをお勧めfit2V17の省略により、予測力の多くを失いました。

で値NagelkerkeのR二乗を提供します。だから与えることはあなたに見積もりを与えるべきです。もご覧ください。lrmstatsfit$stats?lrm


私はNagelkerkeのR-squareに精通しています。しかし、私の質問は「実質的に高いNagelkerke R-Square for fit」が何であるかにありますか?上記の例では、NagelkerkeのR平方が0.173と0.174であるため、それぞれ0.001の違いがfitありfit2ます。「Nagelkerke R-Squareがかなり高い」とは何か参照がありますか?ありがとう!
Matt Reichenbach、

@マット:NagelkerkeのR²または他の疑似R²測度の解釈に関する一般的なガイドラインはないと思います。ただし、これは切片のみのモデルに共変量を含めることによる「可能性の低減」の変換された測度であり、線形回帰の標準R²によって示される「説明された分散」に類似していることに注意してください。その意味で、.173 / .174の差は非常に小さいと解釈します。より強い違いはsthです。十二分橋。ただし、この結論の堅牢性を確認するには、McFaddenやCox / Snellなどの他の疑似R²測度を推定することをお勧めします。
tomka 2013

私は違いが非常に小さいことに同意しますが、「小さな」違いが何であるかを述べている参照を見つけられればいいのですが...私はあなたの考えに感謝します。再度、感謝します!
Matt Reichenbach、

1
問題ない!早く賛成しないでごめんなさい!pseduo R-squaredの点で「小さな」違いは何かについての答えを見つけた場合は、再度投稿します。ありがとう!
Matt Reichenbach、

-1

私はこれについて読んだだけです。これを行う適切な方法は、Rのglmのfinalmodel出力を使用して「残差逸脱:」を探し、2つのモデル間のデルタを導出し、ドロップされた予測子項の数に等しいdfを使用してカイ2乗検定でこの値を使用します。そして、それがあなたのp値です。

応用回帰モデリングIaian Pardoe 2nd edition 2012 pg 270

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.