Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用


17

これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。

私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。

各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。

私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。

Rを使用して統計分析を実行しています。

プライマリテキスト私が使用しているは...

  • 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。

Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています

  • 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」
  • 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」

私は現在、Hosmer et al。の第4章の手順に従っています「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。

  1. ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。
  2. ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。
  3. ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔβ^%=100θ^1β^1β^1。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1β^1
  4. ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。
  5. ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。

私の質問:

  1. ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか?
  2. 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか?
  3. ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ βΔβ^%Δβ^%
  4. 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


好奇心からあなたが勉強している種は何ですか?
予報官

回答:


23

これらの提案された方法のいずれも、シミュレーション研究によって機能することが示されていません。完全なモデルを定式化してから、それを適合させてください。単変量スクリーニングは、モデルの定式化に対するひどいアプローチであり、使用したい段階的な変数選択の他のコンポーネントも同様に避ける必要があります。これは、このサイトで詳細に議論されています。そもそも、変数は「重要ではない」ためにモデルから削除する必要があるという考えを最初に与えたのは何ですか?モデル仕様のガイドとして値または変更を使用しないでください。βPβ


3
はい。ドメインの知識+単純さにおける健全な不信感。たとえば、線形性を示す事前のデータがない限り、連続変数が線形に作用すると仮定しないでください。
フランクハレル14年

6
OPは、この分野に多大な貢献をした著者を含む第3版の主流のテキストを引用しています。質問の他のポイントは、他の有力なテキストで議論されています(Agresti、Gelman)。これを取り上げるのは、この戦略に同意するためではなく、これらの戦略が尊敬される統計学者によって最近の主流のテキストで推奨されていることに注意するためです。要するに、これに反対する多くの文献がありますが、統計コミュニティからは拒否されていないようです。
ジュリス14年

2
私の謙虚な意見では、それはまったく見当違いです。一部のテキストで非常にプッシュされた戦略は検証されていません。シミュレーションを信じていない著者は、宣伝どおりに機能しない方法の使用を主張するリスクにさらされています。
フランクハレル14年

2
はい、知っています。私は頻繁にあなたのテキストと論文を参照しますが、私が結論に到達するために使用した情報源の1つは、上記の戦略に同意していません。私は単に、申請したユーザーのジレンマを伝えています。すべてをテストすることはできません。私たちはあなたのような専門家に頼っています。
ジュリス14年

3
@GNG:FHは、モデル選択のこのアプローチが典型的なアプリケーションで実際に(おそらくモデルの予測の精度を改善するために)行うべきことを行うことを示す方法としてシミュレーションに言及しています。あなたの(鋭い)質問は、そのかなりarbitrary意的でアドホックな性質を強調します-「伝統的な」レベルでの不確定な数の有意性テストに基づく変数の包含は、理論によって何の最適化を保証することはできません。
Scortchi -復活モニカ

5

Pなどの統計を使用した変数選択のために指定されたメソッド、Hosmer et alの古典的なテキストの段階的回帰は、どうしても避けなければなりません。

最近、私は国際予測権のジャーナルに " 予見可能性の幻想 "とキースオードによるこの記事の論評で発表された記事につまずきました。回帰統計の使用はしばしば誤解を招くことを明確に示しているため、これらの記事の両方を強くお勧めします。FollwoingはKeith Ordの記事のスクリーンショットであり、変数選択にステップワイズ回帰(p統計を使用)が悪い理由をシミュレーションで示しています。

ここに画像の説明を入力してください

同誌の同じ号に掲載されたスコット・アームストロングによる別の素晴らしい記事は、ケーススタディで非実験データの回帰分析を使用する際に慎重になるべき理由を示しています。これらの記事を読んでから、回帰分析を使用して非実験データの因果推論を行うことは避けています。開業医として、私はこの長年のような記事を読んで、悪い決断を下し、コストのかかる間違いを避けることができたと思います。

あなたの特定の問題については、ランダム化された実験があなたのケースで可能だとは思わないので、変数を選択するために相互検証を使用することをお勧めします。この無料のオンラインブックには、予測精度を使用して変数を選択する方法についての優れた例が用意されています。また、他の多くの可変選択メソッドもありますが、クロス検証に限定する必要があります。

個人的には、アームストロングからの引用が好きです。「どこかで統計がコミュニケーションを助けるはずだという考えに出会った。複雑な回帰方法と診断統計の群れが私たちを他の方向に連れて行った」

以下は私自身の意見です。私は統計学者ではありません。

  • 生物学者として、この点に感謝するだろうと思います。自然は非常に複雑であり、ロジスティック関数を想定しており、自然界では変数間の相互作用は発生しません。さらに、ロジスティック回帰には次の前提があります。

  • 真の条件付き確率は、独立変数のロジスティック関数です。

  • 重要な変数は省略されていません。無関係な変数は含まれません。

  • 独立変数はエラーなしで測定されます。
  • 観測は独立しています。
  • 独立変数は、お互いの線形結合ではありません。

このタイプの分析のロジスティック回帰に代わるものとして、分類と回帰ツリー(CART(r))を推奨します。前提条件がないためです。

  1. ノンパラメトリック/データ駆動型/出力確率がロジスティック関数に従うという仮定なし。
  2. 非線形
  3. 複雑な変数相互作用を可能にします。
  4. 森林管理者のような非統計学者が高く評価する非常に解釈可能な視覚的ツリーを提供します。
  5. 欠損値を簡単に処理します。
  6. CARTを使用するのに統計学者である必要はありません!!
  7. 相互検証を使用して変数を自動的に選択します。

CARTはSalford Systemsの商標です。CARTの紹介と歴史については、このビデオをご覧ください。同じウェブサイトには、カート-ロジスティック登録ハイブリッドのような他のビデオもあります。私はそれをチェックします。Rのオープンソース実装はTreeと呼ばれ、Rで使用できるガラガラなどの他の多くのパッケージがあります。時間があれば、CARTを使用してHomserのテキストに最初の例を投稿します。ロジスティック回帰の使用を主張する場合、少なくともCARTなどのメソッドを使用して変数を選択し、ロジスティック回帰を適用します。

個人的には、前述の利点があるため、ロジスティック回帰よりもCARTを好みます。それでも、ロジスティック回帰とCARTまたはCART-Logistc回帰ハイブリッドの両方を試して、どちらが予測精度が高く、さらに重要なのは解釈可能性が高いかを確認し、データをより明確に「伝達」するものを選択します。

また、FYI CARTは主要な統計ジャーナルに拒否され、最終的にCARTの発明者はモノグラフを発表しました。CARTは、Random Forest(r)、Gradient Boosting Machines(GBM)、Multivariate Adaptive Regression Splinesなどの非常に成功した最新の機械学習アルゴリズムへの道を切り開きました。RandomforestとGBMはCARTよりも正確ですが、CARTよりも解釈しにくい(ブラックボックスのような)。

これが役立つことを願っています。この投稿が役に立つと思ったら教えてください。


8
いいえ。ロジスティックモデルは、他のモデルよりも多くの仮定を行いません。主な唯一の仮定は、が本当にオールオアナッシングであるということです。CARTは、ロジスティック回帰によって大幅に優れています。CART は、考えられるすべての相互作用を可能にするため、ロジスティック回帰よりもはるかに多くのパラメーターに効果的に適合します。皮肉なことに、最大限の柔軟性を可能にする方法は、より構造化された方法よりも保守的です。CARTモデルのキャリブレーションを適切に行うには、モデルをプルーニングして、小さな予測差別を持たせる必要があることがわかります。Y
フランクハレル14年

3
この回答は、少なくとも私にとっては議論の余地のない一般的なコメントから、選択の方法としてのCARTの非常に具体的でかなり個人的な支持へと変わります。他の人は彼らの異議を唱える権利があるので、あなたはあなたの意見を受ける権利があります。私の提案は、あなたがあなたの答えの二つの味をより明確にフラグを立てることです。
ニックコックス

2
ロジスティック回帰は一般化された線形モデルですが、そうでなければ、自然な非線形モデル(通常の空間の曲線または等価物ではなく、線または等価物に適合するという意味で)として十分に動機付けられます。バイナリ応答。ここでの生物学への魅力は両刃です。歴史的に、バイナリ応答のロジスティックモデルは、生物学のロジスティック成長(人口など)のモデルに触発されました!
ニックコックス

ソイヤーら。紙、アームストロング紙、および解説はすべて非常に優れています。私は今週末それらについて読んでいます。それらを提案していただきありがとうございます。統計学者ではないので、ロジスティック回帰でCARTを使用することについてコメントすることはできません。しかし、あなたの答えは非常によく書かれており、有用であり、洞察力のあるコメントを受け取っています。私は、CART、MaxEnt、およびブーストされた回帰ツリーなどの機械学習方法を読んでおり、彼らの洞察を得るために委員会と議論することを計画しています。空き時間があれば、CARTビデオも面白いはずです。
GNG 14年

3
笑顔で、線形モデルについてのコメントを覆し、仮定なし、あるいは仮定なしであることから、CARTは現実が木のようなものだと仮定することができると思います(他に何がありますか?)。自然が滑らかに変化する連続体であると思う場合は、反対方向に走るべきです。
ニックコックス

3

存在/バックグラウンドアプローチで種の存在を予測しようとしていると思います。これは、「生態学と進化の方法」、「エコグラフィー」などのジャーナルでよく文書化されています。素敵なビネットが含まれています。dismoまたは他の同様のパッケージを使用することは、問題に対するアプローチを変更することを意味しますが、一見する価値があると思います。


2
モデルを指定するだけでは何ができますか?なぜモデルにあるべきものに大きな不確実性があるのですか?GLMを使用してモデルを選択する必要があるのはなぜですか?
フランクハレル14年

1
いくつかの概念を混ぜているのではないかと思います。(1)実際には、maxentは、プレゼンス/バックグラウンドデータ、またはプレゼンス/擬似不在データです。そのため、maxentはプレゼンスのみのデータを使用し、ランドスケープからいくつかのポイント、つまり、背景/疑似不在を追加します。したがって、あなたのケースで使用できます。(2)GLMは、「真の」不在で使用されるように設計されました。ただし、GLMはプレゼンス/疑似不在データに適合しています。(3)dismoパッケージは、回帰ツリーのブーストを提供しますが、それだけではありません。GLMにも適合できます。パッケージのビネットの1つ(2つあります)に従うだけです。
ヒューゴ14年

1
予測変数としてどの変数を含めるべきかという質問がある場合は、これらの論文をご覧ください。Shepard2013。気候変数の選択は、種の分布の予測にどのように影響しますか?ニュージーランドの3つの新しい雑草の事例研究。雑草研究; ハリス他 2013.あるべきかどうか?変数の選択は、将来の気候下で絶滅危ened種の予測される運命を変える可能性があります。Ecol。マナグ。復元します。
ヒューゴ14年

2
変数選択手法が過剰適合を何らかの形で減らすという考えは奇妙です。モデルの削減による変数の明らかな節約は、削減がデータ自体に起因する場合、完全に幻想です。
フランクハレル14年

1
@GNG:「モデル内のすべての変数を残すことに関する私の不確実性は、共線性と過剰適合について教えられたすべてのものに由来ます」- モデルには共線性の高い予測子が含まれてますか?あるオーバーフィッティングモデルは?
Scortchi -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.