ロジスティック回帰(Cox&SnellまたはNagelkerke)について報告するのはどの擬似尺度ですか?


55

SPSSロジスティック回帰モデルの出力があります。出力は、モデルの適合のための2つの対策を報告し、Cox & SnellそしてNagelkerke

それで、経験則として、これらのR²測定値のどれがモデルに適合すると報告しますか?

または、これらの適合指数のどれがジャーナルで通常報告されますか?


ある程度の背景:回帰は、いくつかの環境変数(例:急峻さ、植生被覆など)から鳥(アカゲラ)の有無を予測しようとします。残念ながら、鳥はあまり頻繁に出現しなかったため(35ヒットから468ミス)、回帰のパフォーマンスはかなり低下しました。Cox&Snellは.09、Nagelkerke、.23です。

主題は、環境科学または生態学です。


3
優れたUCLA統計のヘルプサイトには、さまざまな疑似R ^ 2とそれらの相互関係を説明する優れたページありますR2
グング-モニカを復活

ロジスティック回帰モデルの精度を最大化する正確なノンパラメトリックアルゴリズムについて説明する2つのリンクがあります。データでこのメソッドを使用すると、サンプルに適用したときにロジスティック回帰モデルの分類パフォーマンスが向上します。例1:onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/​​…例2:epm.sagepub.com/content/54/1/73.abstract
user31256

回答:


74

通常、をまったく報告しません。HosmerとLemeshowは、教科書のApplied Logistic Regression(2nd Ed。)で、その理由を説明しています。R2

一般に、[メジャー]は、適合モデルの予測値と[ベースモデル]の予測値のさまざまな比較、データなしまたはインターセプトのみのモデルに基づいており、その結果、適合度を評価しません-フィット。適合の真の尺度は、適合モデルの観測値と予測値の比較に厳密に基づいたものであると考えています。R2

[p。164.]

「擬似」統計であるさまざまなMLバージョンについては、「日常的に使用することはお勧めできません。直観的に説明するのは簡単ではありません」と述べていますが、ソフトウェアパッケージが報告します。R2R2

彼らはこの議論を次のように書き終えています。

... ロジスティック回帰の低い値は標準であり、線形回帰値を見ることに慣れている聴衆にそれらの値を報告するとき、これは問題を提示します。...したがって、[本文中の例を参照して議論する] 適合ロジスティックモデルの結果を使用して値を定期的に公開することはお勧めしません。ただし、これらは、競合モデルを評価するための統計としてモデル構築状態で役立つ場合があります。R2R2

[p。167.]

いくつかの大規模なロジスティックモデル(10万から30万のレコード、100から300の説明変数)での私の経験は、H&Lが説明したとおりです。私のデータでは、最大約0.40の比較的高いを達成できました。これらは、3%〜15%の分類エラー率に対応しました(50%のホールドアウトデータセットを使用して確認されたように、バランスの取れた偽陰性と偽陽性)。H&Lが示唆したように、私は(に精通していた洗練されたコンサルタント自身、クライアントdisabusing多くの時間を費やす必要があったに関する)、彼は分析に大事何に焦点を当ててもらう(分類エラーレート)。を参照せずに分析結果を説明することをお勧めします。これは、誤解を招く可能性があります。R2R2R2R2


1
(+1)私は当初、あなたの応答を拡張することを考えていました(それはあなたの直後に来ました)が、間違いなくあなたの答えは自給自足です。
chl

これに感謝し、私が現在取り組んでいるプロジェクトにも役立っています-そして、まったく理にかなっています。
ブランドンバーテルセン

1
@whuber:私も正しい分類に引き寄せられる傾向があります。しかし、教科書やウェブサイトで多くの参考文献を見て、アナリストに信頼しないよう警告し、その制限にもかかわらず、擬似rsqはより公平な指標であることを強調しています。私は自分の分析である程度耐えられているように見えるものをよく読みます:与えられた予測子の追加により、擬似rsqが上がる可能性があり(そして他のメトリックは追加の利点を示します)、正しい分類率は失敗し、後者を信用してはいけません。これについて何か考えたことはありますか?
rolando2

4
@ rolando2はい、あります。これは、変数の包含を正当化するために擬似がどれだけ上昇すべきという問題を提起します。あなたの「正しい分類率」とは、サンプルバイアスのことであり、もちろん偏っていると思われます。それが正しい場合、あなたが読んだものは単に2つの劣った統計を比較します。サンプルのアウト率が疑似のよりインジケータはるかに有用であり、。R2R2
whuberの

1
+1。また、回答の微妙な部分を拡張するために、分類エラー率に言及します。これは複数であり、正確さと混同しないでください。混同マトリックスから得られるさまざまな種類の計算があります- 精度偽陽性率精度など-そして私たちが気にするものはアプリケーションによって異なります。また、クロス検証とは異なるout-of-sampleを区別しますが、混同する場合があります。
ウェイン

27

両方のインデックスは関連の強さの尺度(つまり、LRテストのように予測子が結果に関連付けられているかどうか)であり、予測能力またはモデルのパフォーマンスを定量化するために使用できます。単一の予測子は結果に大きな影響を与える可能性がありますが、個々の応答予測するのに必ずしもそれほど有用ではない可能性があるため、モデルのパフォーマンス全体を評価する必要があります(nullモデル)。Narikkerkeは、Srikantが言ったように、最大​​値が1.0であるため便利です。これは、尤度比から計算された正規化バージョンです。R2R2RLR2=1exp(LR/n)、これは元々CoxとSnellによって提案された、全体的な関連性に関するWald統計と関連があります。予測能力のその他の指標は、ブリアスコア、C指標(一致確率またはROC面積)、またはサマーズDです。後者2は予測判別のより良い尺度を提供します。

ロジスティック回帰で行われた唯一の仮定は、線形性加法性(+独立性)の仮定です。多くのグローバル適合度テスト(Hosmer&Lemeshowテストのようなものですが、@ onestopへの私のコメントを参照)が提案されていますが、それらは一般に力に欠けています。モデルの適合性を評価するには、予測結果と観測結果(非線形性または相互作用など)の間のローカルまたはグローバルな逸脱を見つけるのに役立つ視覚的基準(層化推定、ノンパラメトリック平滑化)に依存する方が適切です。これについては、HarrellのRMS配布資料。関連するテーマ(キャリブレーションテスト)、Steyerberg(Clinical Prediction Modelsχ2、2009)は、観察された結果と予測された確率との間の一致を評価するための同じアプローチを指します:

キャリブレーションは適合度に関連しており、適合度は、特定のデータセットに適合するモデルの能力に関連しています。通常、予測モデルのあらゆる種類の適合性の欠如に対して優れた力を持つ単一の適合度テストはありません。適合の欠如の例は、見逃された非線形性、相互作用、または線形予測子と結果の間の不適切なリンク関数です。適合度は統計でテストできます 。(p。274)χ2

彼はまた、平滑化された観測結果と予測確率との絶対的な差を、視覚的に、またはいわゆるハレルのE統計に依存することを提案しています。

詳細については、Harrellの本Regression Modeling Strategies(pp。203-205、230-244、247-249)を参照してください。より最近の議論については、また見なさい

Steyerberg、EW、Vickers、AJ、Cook、NR、Gerds、T、Gonen、M、Obuchowski、N、Pencina、MJ、およびKattan、MW(2010)。予測モデルのパフォーマンスの評価、伝統的および新規の尺度のフレームワーク疫学21(1)、128-138。


「適合度」と関連性または予測能力の違いを詳しく説明していただけますか?
アンディW

@Andyそれを指摘してくれてありがとう。その後、私の最初の文が実際にうまく聞こえないことに気付きます。答えを更新します。これでよろしければお知らせください。
chl

アップデートをありがとう、それは区別を明確にします。
アンディW

21

ロジスティック回帰のあらゆる種類の尺度の主な問題は、既知のノイズ値を持つモデルを扱っていることだと思っていただろう。これは、ノイズレベルが通常不明として扱われる標準の線形回帰とは異なります。次のようにglm確率密度関数を書くことができます。R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

ここで、は既知の関数であり、逆リンク関数。通常のGLM逸脱残差を次のように定義するとb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
我々が持っている(尤度比カイ二乗、介して)χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

どこの次元で。ロジスティック回帰の場合、既知のがあります。したがって、これを使用して、「許容可能」または「合理的」な一定レベルの残差を決定できます。これは通常、OLS回帰では実行できません(ノイズに関する事前情報がない場合)。つまり、各逸脱残差は約になると予想されます。多すぎると、重要な効果がモデルから欠落している可能性があります(適合不足)。多すぎると、モデルに冗長またはスプリアス効果が存在する可能性があります(過剰適合)。(これらはモデルの仕様不適合を意味する場合もあります)。pβϕ=11di21di21

これは、疑似の問題は、項変動のレベルが予測可能であることを考慮に入れていないことを意味します(2項誤差構造が疑問視されていない場合)。したがってNagelkerkeの範囲であるにも関わらずに、それはまだ適切にスケーリングされていません。さらに、IDリンクと通常のエラーで「GLM」を適合させたときに通常のと等しくない場合、これらが疑似と呼ばれる理由がわかりません。たとえば、正規誤差の等価cox-snell R-2乗(分散のREML推定を使用)は、次の式で与えられます。R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

これは確かに奇妙に見えます。

より良い「適合度」の尺度は、逸脱残差の合計だと思います。これは、主に目標を設定しているためです。χ2


+1 スリカントの答えに続くコメントで示唆された問題の素敵な説明。
whuberの

反復的に再重み付けされた最小二乗法を使用して二項GLMがフィットする場合、フィットの品質の尺度として、GLMがフィットされた最後のIRLS反復の加重最小二乗フィットのR2を報告しないのはなぜですか?同様にstats.stackexchange.com/questions/412580/...
トムウェンセリアーズ

16

Tue Tjurの短い論文「ロジスティック回帰モデルの決定係数-新しい提案:差別の係数」(2009年、 アメリカ統計学者を見つけました。彼は長所と短所を強調する良い仕事をしている-もちろん、新しい定義を提供しています。とてもお勧めします(自分自身のお気に入りはありませんが)。


1
その論文を指摘してくれてありがとう。どういうわけか私はそれを逃しました(そして、私は大きなロジスティック回帰プロジェクトの最中に現れました!)。
whuber

3
レコードの場合、この新しい定義は。これは、応答の平均予測値から応答の平均予測値を引いたものです。それはからの範囲でに。TjurはNagelkerke疑似却下しませんが、享受する「直感的なアピール」がないことを示唆しています。D=π^¯1π^¯01001R2D
whuber

8

また、「どちらでもない」と言うつもりだったので、whuberの答えに賛成しました。

R ^ 2を批判するのと同様に、Hosmer&Lemeshowはロジスティック回帰の適合度の代替尺度を提案しましたが、これは時には有用です。これは、予測された確率(または同等に線形予測子)に基づいて、データを(たとえば)等しいサイズ(または可能な限り近い)の10グループに分割し、各グループの肯定応答の観測数と期待数を比較することに基づいていますカイ二乗検定を実行します。この「Hosmer-Lemeshow適合度検定」は、ほとんどの統計ソフトウェアパッケージに実装されています。


3
元のHL GoFテストは、連続予測子スケールを任意の数のグループに分類することに依存するため、あまり強力ではありません。H&Lは十分位を考慮することを提案しましたが、明らかにサンプルサイズに依存し、状況によっては(IRTモデルなど)、スケールの片端または両端に人がほとんどいないため、カットオフの間隔が不均等になることがよくあります。ロジスティック回帰モデルStatの適合度テストの比較を参照してください。中 1997 16(9):965、j.mp / aV2W6Iχ2
chl

chiに感謝します。j.mpリンクからBiblioInsermのログインプロンプトが表示されましたが、これは便利なリファレンスです。ここではDOIベースのリンクがあります:dx.doi.org/10.1002/...
ワンストップ

間違ったリンクでごめんなさい...私はフランク・ハレルのDesignパッケージが代替H&L 1 dfテストを特徴とすることを覚えているようです。
chl

3

Nagelkerkeは、モデルが完全に適合したときに1に達するため、Nagelkerkeを好むでしょう。読者に、モデルが完全な適合からどれだけ離れているかの感覚を与えます。Cox&Shellはモデルの完全な適合のために1に達していないため、0.09の値を解釈するのは少し難しくなります。さまざまな種類の近似の説明については、Pseudo RSquaredの詳細については、このURLを参照してください。


8
「完全な適合」は、現実的なロジスティック回帰で達成できるほど遠くないため、参照または標準として使用するのは不公平に思えます。
whuber

1
@whuber確かに、標準を使用して、2つの競合モデルの相対的なパフォーマンスを比較することもできます。あなたの答えの低R ^ 2のポイントとその意味は良い点ですが、あなた(例えば、評論家がそれを要求するなど)何らかの形のR ^ 2を使用するなら、Nagelkerkeが望ましいです。

1
@Skridantはい、いまだにとBonferroniの修正をどこでも見たいと思っているレビュアーの問題です...R2
chl

@ Srikant、@ chl:このスレッドの冷笑的な読み方は、ソフトウェアが報告するすべての中で最大のR ^ 2を選択することを示唆しています;-)。
whuber

2
@chlレビュアー/クライアントへのプッシュバックを提供することはもちろん必要ですが、時には実用的でなければなりません。読者が低R ^ 2を適切なモデルパフォーマンスの欠如と誤解しない場合、@ whuberによって提起された問題はある程度緩和されます。

3

疑似二乗の使用に反対する議論にもかかわらず、一部の人々はさまざまな理由で、少なくとも特定の時間にそれらを使用し続けたいと思うでしょう。私が読み物から内面化したのは(そして残念ながら、現時点では引用を提供できないことです)

  • C&SとNagの両方の場合。.5未満の場合、C&Sがより適切なゲージになります。
    両方とも.5を超える場合、Nag。意志; そして
    、それらが.5にまたがる場合、パントします。

また、スコット・メナードが応用ロジスティック回帰分析(セージ)で言及した結果がしばしばこれらの2つの間にある式は、

[-2LL0 - (-2LL1)]/-2LL0.

これは、以下のチャートで「L」と示されています。

ここに画像の説明を入力してください


この写真は何を示していますか(水平軸は何を表しているのですか)?また、最後の式(スケーリングされた尤度比統計のように見えます)は、Nagelkerkeとどのように正確に異なりますか?R2
chl

分析番号:異なるデータセットでさまざまな分析を試みました。便利なNagelkerkeの式を持っていないが、私はそれがすぐに利用できるに違いない。
rolando2

Paul Allisonは、statistichorizo​​ns.com / 2013/02で、上向きに調整されたCox&Snell公式であるNagelkerke公式について説明しています。そのブログを読んだ後、そしてこの議論の大部分が行われてから2、3年で、Cox&Snellの過小評価が分散を説明し、C&SとNagelkerkeの結果を平均する方が良いと確信するようになりました。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.