ロジスティック回帰の適合度検定。どの「適合」をテストしますか?


12

私は質問とその答えに言及しています:ロジスティック回帰から開発されたモデルの予測能力を比較する方法(確率)?@Clark Chong、@ Frank Harrellによる回答/コメント。そして、Hosmer-Lemeshowテストとコメントの自由度χ2の質問に。

私は紙の読み持っDWホズマー、T.ホズマー、S.ルCessie、S. Lemeshow、「ロジスティック回帰モデルの適合度検定の比較」、医学、巻で統計を。16、965-980(1997)

読んだ後、私が言及した質問が「(確率)予測能力」を明示的に求めているので混乱しました。これは、私の意見では、上記の論文の適合度テストの目的と同じではありません

ほとんどの人が知っているように、ロジスティック回帰は説明変数と成功の確率の間のS字型のリンクを想定しています。S字型の関数型は

Py=1|バツ=11+eβ0+βバツ

Hosmer-Lemeshow検定に欠点がないというふりをせずに、(a)'(確率)予測能力 'と(b) ' 適合度 'の検定を区別する必要があると思います。

前者の目標は、確率が十分に予測されているかどうかをテストすることです。一方、適合度テストは、上記のS字型関数が「正しい」関数であるかどうかをテストします。より正式には:

  1. 「確率予測能力テスト」のテストには、成功確率がモデルによって十分に予測されていることを示すがあります。H0
  2. 一方、適合度テストでは、は(上記のHosmer et al。を参照)S字型の関数型が正しいものです。ホスマー等。ヌルからの2種類の偏差、つまりリンク関数が間違っていること、または分母の指数が線形でないことを検出する能力を見つけるシミュレーションを実行します。H0

明らかに、上記の関数が「正しい」関数形式を持っている場合(したがって、適合度テストのためにを受け入れることができるとテストが結論付けた場合)、予測される確率は良好です...H0

最初の発言

...しかし、を受け入れることは、帰無仮説を棄却できない場合に続くことで説明されているように、弱い結論です。H0

最初の質問

私が持っている最も重要な質問/発言は、適合度が拒否された場合、テストの結論は機能的形式が「正しい」ものではなかったということですが、これは確率がよく予測されていない?H0

二番目の質問

さらに、Hosmer et。al。の結論を指摘したい。al; (要約から引用):

''正しいモデルには2次項があり、線形項のみを含むモデルが適合している場合のテストのパフォーマンスの検査は、ピアソンカイ2乗、重み付けされていない2乗和、Hosmer-Lemeshow十分位リスクの平滑化された残差平方和とStukelのスコアテストは、サンプルサイズが100のときに線形性から中程度の逸脱を検出するために50%を超える検出力を持ち、サイズ500のサンプルのこれらの同じ代替に対して90%を超える検出力を持ちます。正しいモデルに2項共変量と連続共変量の相互作用がある場合、すべてのテストには力がありませんでしたが、連続共変量モデルのみが適合しました。誤って指定されたリンクを検出する能力は、サイズ100のサンプルでは不十分でした。サイズ500のサンプルでは、​​Stukel ' sスコアテストは最高の性能を発揮しましたが、非対称リンク機能を検出するには50%を超えていました。誤って指定されたリンク関数を検出するための重みなし二乗和テストの能力は、Stukelのスコアテストよりもわずかに低かった ''

このことから、どのテストがより強力であるか、またはHosmer-Lemeshowの方が(これらの特定の異常を検出するために)より少ないと結論付けることができますか?

第二の発言

Hosmer et。による論文 al。前述のように、特定の異常を検出するために電力を計算(シミュレーション)します(電力はが指定されている場合にのみ計算できます)。これは、これらの結果を「すべての可能な代替案」に一般化できることを意味するものではありません。H1H1

回答:


5

R2

適合度テストは、特定の選択肢に対する高い力ではなく、さまざまな選択肢に対する妥当な力を持つことを目的としています。そのため、さまざまなテストの能力を比較する人々は、潜在的なユーザーに特に関心があると思われるいくつかの選択肢を選ぶという実用的なアプローチを取る傾向があります(たとえば、よく引用されるStephens(1974)、 &いくつかの比較」、JASA、69、347)。あるテストは他のテストよりも強力であると結論付けることはできません。


1
場合によっては、テストが「均一に強力」であることを示すことができます。これは、すべての可能な代替案(cfr Karlin / Rubin定理)に対してより強力であることを意味します。しかし、これは例外的な場合にのみ該当し、Hosmer-Lemeshowテストの設定には該当しないことは間違いありません。

4
一般に、「適合度」は私見を強調しすぎています。より良い代替策は、モデルを前もって適合させることです。これは、回帰スプラインを使用して線形性の仮定を緩和し、意味のある相互作用を含めることによって行われます。
フランクハレル

2
@fcoppens:良い点!UMPテストを取得するのは、考慮中の選択肢をスカラーパラメータの値に厳しく制限することによってのみです。テストが許容できないかどうかを考慮しても-すべての代替案でより強力な他のテストが少なくとも1つあります-汎用GOFテストでは代替案を制限しすぎる必要があります。
Scortchi -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.