Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用
これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。 私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。 各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。 私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。 Rを使用して統計分析を実行しています。 プライマリテキスト私が使用しているは... 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。 Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています。 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」 私は現在、Hosmer et al。の第4章の手順に従っています。「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。 ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。 ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。 ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔのβ^%= 100 θ^1- β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。 ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。 私の質問: ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか? 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか? ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ β%Δのβ^%Δβ^%\Delta\hat{\beta}\%Δのβ^%Δβ^%\Delta\hat{\beta}\% 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δのβ^%Δβ^%\Delta\hat{\beta}\% 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])