タグ付けされた質問 「model-selection」

モデルの選択は、あるセットのどのモデルが最もよく機能するかを判断する際の問題です。一般的な方法は次のとおりですR2、AICおよびBICの基準、テストセット、および相互検証。ある程度、特徴選択はモデル選択の副問題です。

4
Leave-one-out相互検証に関するShaoの結果はいつ適用されますか?
Jun Shaoは、彼の論文「Cross-Validationによる線形モデル選択」で、多変量​​線形回帰の変数選択の問題について、leave-one-out相互検証(LOOCV)の方法が「漸近的に一貫していない」ことを示しています。平易な英語では、変数が多すぎるモデルを選択する傾向があります。シミュレーション研究で、Shaoは、わずか40回の観測であっても、LOOCVが他の交差検証手法よりも劣っていることを示しています。 この論文は多少議論の余地があり、多少無視されています(公開から10年後、私の計量化学の同僚はそれを聞いたことがなく、変数選択にLOOCVを喜んで使用していました...)。また、その結果は元の限られた範囲をいくらか超えているという信念もあります(私はこれに罪を犯しています)。 それでは、これらの結果はどこまで拡大するのでしょうか?次の問題に適用できますか? ロジスティック回帰/ GLMの変数選択? Fisher LDA分類の変数選択? 有限(または無限)カーネルスペースを持つSVMを使用した変数選択? 分類におけるモデルの比較、異なるカーネルを使用するSVMなど 線形回帰のモデルの比較、たとえばMLRとリッジ回帰の比較? 等

3
ACFおよびPACFプロットを分析する
ACFプロットとPACFプロットを分析して正しい軌道に乗っているかどうかを確認したい: 背景:(Reff:Philip Hans Franses、1998) ACFとPACFの両方が重要な値を示しているので、ARMAモデルが私のニーズを満たすと思います ACFはMA部分、つまりq値を推定するために使用でき、PACFはAR部分、すなわちp値を推定するために使用できます。 モデル次数を推定するために、a。)ACF値が十分に消滅するかどうか、b。)ACFが過差分信号を送るかどうか、c。)ACFとPACFが特定のラグで有意かつ容易に解釈可能なピークを示すかどうかを調べます ACFとPACFは、1つのモデルだけでなく、他の診断ツールを検討した後に選択する必要のある多くのモデルを提案する場合があります それを念頭に置いて、ACF値がラグ4で消滅し、PACFが1と2でスパイクを示すため、最も明白なモデルはARMA(4,2)であると考えます。 別の分析方法としては、PACFに2つの大きなスパイクがあり、ACFに1つの大きなスパイクがあるため、ARMA(2,1)になります(その後、はるかに低いポイント(0.4)から値が消えます)。 サンプル内の予測結果を見ると(単純な平均絶対誤差を使用)、ARMA(2,1)はARMA(4,2)よりもはるかに優れた結果を提供します。そこで、ARMA(2,1)を使用します! ACFプロットとPACFプロットの分析方法と結果を確認できますか? 感謝します! 編集: 記述統計: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': …

1
Firthロジスティック回帰によるモデル選択
私が作業している小さなデータセット()では、いくつかの変数が完全な予測/分離を提供します。したがって、この問題に対処するには、Firthロジスティック回帰を使用します。n個〜100n〜100n\sim100 AICまたはBICで最適なモデルを選択した場合、これらの情報基準を計算するときに尤度に第5ペナルティ項を含める必要がありますか?

2
モデル選択後の相互検証(エラーの一般化)
注:ケースはn >> pです 統計学習の要素を読んでいますが、相互検証を行う「正しい」方法についてさまざまな言及があります(60ページ、245ページなど)。具体的には、私の質問は、モデル検索が行われたときに、k分割CVまたはブートストラップを使用して最終モデルを評価する方法です(個別のテストセットなし)。ほとんどの場合(組み込み機能選択なしのMLアルゴリズム)、 機能選択ステップ メタパラメーターの選択手順(SVMのコストパラメーターなど)。 私の質問: トレーニングセット全体で機能の選択を行い、脇に置いて、機能の選択手順を実行できることを確認しました。次に、kフォールドCVを使用して、特徴選択アルゴリズムが各フォールドで使用され(場合によっては毎回選択される異なる特徴を取得)、エラーが平均化されます。次に、すべてのデータ(確保された)を使用して選択された機能を使用して最終モードをトレーニングしますが、クロス検証からのエラーをモデルの将来のパフォーマンスの推定値として使用します。これは正しいです? クロス検証を使用してモデルパラメーターを選択する場合、モデルのパフォーマンスを後で推定する方法は?上記の#1と同じプロセスですか、54ページ(pdf)または他の何かに示されているようなネストされたCVを使用する必要がありますか? 両方のステップ(機能とパラメーターの設定)を実行しているとき.....その後、何をしますか?複雑なネストされたループ? 別のホールドアウトサンプルがある場合、懸念はなくなり、クロス検証を使用して機能とパラメーターを選択できます(パフォーマンスの見積もりはホールドアウトセットから取得されるため、心配する必要はありません)?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
回帰モデルから用語を削除する場合
以下が理にかなっている場合、誰でもアドバイスできますか? 4つの予測子を持つ通常の線形モデルを扱っています。最下位の用語を削除するかどうかは、2つの考えに基づいています。それはだ -値が0.05以上少ないです。私はこれらの線に沿ってそれをドロップすることに賛成しました:この用語の推定値に(例えば)この変数のサンプルデータの四分位範囲を掛けると、この用語を維持することがモデル全体に​​及ぼす臨床効果に何らかの意味を与えます。この数は非常に低く、臨床設定で変数を測定するときに変数が取ることができる典型的な日中の値の範囲にほぼ等しいため、臨床的に重要ではないと見なし、したがってより節約的なモデルを提供するためにドロップすることができますドロップすると、調整されたが少し減少します。R 2pppR2R2R^2

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか?
予測や予測ではなく、モデルパラメーターの推定(および解釈)のみに関心がある場合、正則化は役立ちますか? あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか?クロスバリデーションもそのコンテキストで役立ちますか?概念的な難易私の闘争は、我々が実際に計算できるということであるL ( Y 、Y)試験データに、しかし、我々はできる計算決してL ( β 、β)真ため、βが観測されたことがない定義です。(真のβさえ存在すると仮定してくださいββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta、つまり、データが生成されたモデルのファミリーを知っていること。) あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね?そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか?L(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、‖ β - βを ‖でも、またはちょうど(β 1 - β 1 )2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか?β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVert(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 編集:DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く 技術を機械学習...予測する統制のとれた方法で提供さ Y(i)は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び(ii)の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは(他の多くの仮定なし)のために非常に便利な保証を与えていませんβ。Y^Y^\hat{Y}Y^Y^\hat{Y}β^β^\hat{\beta} 別の関連する紙、再びDJohnsonのおかげ: http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。 ...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。

2
線形混合モデルで変量効果構造と固定効果構造を選択する方法は?
被験者内の双方向設計からの次のデータを考慮してください。 df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 混合線形モデルを使用してこれを分析したいと思います。考えられるすべての固定効果と変量効果を考慮すると、複数の可能なモデルがあります。 …

7
モデルの複雑さの尺度
同じ数のパラメーターを持つ2つのモデルの複雑さをどのように比較できますか? 編集09/19:明確にするために、モデルの複雑さは、限られたデータから学ぶことがどれだけ難しいかを示す尺度です。2つのモデルが既存のデータに等しく適合している場合、複雑度が低いモデルほど、将来のデータに対するエラーが少なくなります。近似値を使用する場合、これは技術的には常に正しいとは限りませんが、実際に正しい傾向がある場合は問題ありません。さまざまな近似が異なる複雑さの尺度を提供します

1
モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)
Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。ln (n )> 2ln(n)>2\text{ln}(n)>2 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。 ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。 質問: ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか? ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

4
線形関数、指数関数、および対数関数から最適な曲線近似関数を決定する
環境: Mathematics Stack Exchange (プログラムを構築できますか?)の質問から、誰かが点のセットを持ち、それに線形、指数、または対数曲線を当てはめたいと思っています。通常の方法は、これらのいずれか(モデルを指定)を選択して開始し、統計計算を実行することです。x − yバツ−yx-y しかし、本当に求められているのは、線形、指数、または対数から「最良の」曲線を見つけることです。 表向きは、3つすべてを試して、最適な相関係数に従って3つの最適な曲線を選択できます。 しかし、どういうわけか私はこれが全くコーシャーではないと感じています。一般的に受け入れられている方法は、最初にモデルを選択し、3つのうちの1つ(または他のリンク関数)を選択してから、データから係数を計算します。そして、事実上の最高のピッキングはチェリーピッキングです。しかし、データから関数または係数を決定するかどうかは同じですが、あなたの手順は最高の...ものを発見しています(どの関数が別の係数であるかを発見してみましょう)。 質問: 適合統計の比較に基づいて、線形、指数、および対数モデルから最適なモデルを選択することは適切ですか? もしそうなら、これを行うための最も適切な方法は何ですか? 回帰が関数内のパラメーター(係数)を見つけるのに役立つ場合、3つの曲線族のどれが最適であるかを選択する離散パラメーターがないのはなぜですか?

1
ネストされた交差検証後に最終モデルを構築し、確率しきい値を調整する方法は?
まず、ここで、ここで、ここで、ここで、ここで、ここで詳細に議論されている質問を投稿することに対する謝罪、および古いトピックの再加熱用。@DikranMarsupialがこのトピックについて長々と投稿やジャーナルペーパーで書いていることは知っていますが、私はまだ混乱しており、ここにある同様の投稿の数から判断すると、他の人がまだ把握するのに苦労しています。また、このトピックに関して矛盾が生じたため、混乱を招いたことも述べておく必要があります。また、私はもともと物理学者であり統計学者ではないことも知っておく必要があります。そのため、ここでの私の専門知識はやや限られています。ネストされたCVを使用して、最終モデルに期待できるパフォーマンスを推定するジャーナルペーパーを書いています。私のドメインでは、これが最初です。(ほとんど使用しません私の分野では堅牢なCVの形ですが、ニューラルネットとブーストされた決定木を使用した研究の結果を含む論文を喜んで送り出します!)したがって、私が非常に徹底的かつ明確な理解を持っていることが重要です。私のコミュニティへの誤った手順は、何年も学ぶことができませんでした!ありがとう!質問を続けて... ネストされた交差検証後に最終モデルを作成するにはどうすればよいですか? L1とL2の正規化を使用した単純なglmnetモデルをトレーニングしています。それは高速で、シンプルで、解釈可能です。特徴の中心化、スケーリング、およびBox-Cox変換を実行して、特徴の分布が平均中心で標準化されており、ガウスに似ていることを確認します。情報漏えいを防ぐため、この手順は相互検証内で実行します。純粋に私のハードウェアが非常に遅いため、CPUの負荷を増やすことができないため、機能の前処理後にCV内で高速のフィルターベースの機能選択を実行します。ランダムグリッド検索を使用して、アルファおよびラムダハイパーパラメーターを選択しています。私はすべきではないことを理解していますこの推定値を取得するCVループ。内部CVループはモデル選択(この場合、最適なハイパーパラメーター)に使用され、外部ループはモデル評価に使用されること、つまり、内部CV ループと外部CVはしばしば誤って混同される2つの異なる目的を果たすことを理解しています。(私はこれまでどのようにやっていますか?) さて、私が投稿したリンクは、「相互検証を考える方法は、モデルのパフォーマンスを推定するのではなく、モデルを構築する方法を使用して得られたパフォーマンスを推定することだ」と示唆しています。それを考えると、ネストされたCV手順の結果をどのように解釈する必要がありますか? 私が読んだアドバイスは次のことを示しているようです-これが間違っている場合は修正してください:内側のCVは、glmnetモデルの最適なアルファおよびラムダハイパーパラメーターを選択できるメカニズムの一部です。外側のCVは、ハイパーパラメーターの調整やデータセット全体を使用して最終モデルを構築するなど、内側CVで使用されている手順とまったく同じ手順を適用すると、最終モデルから得られると予想される推定値を示します。つまり、ハイパーパラメーターの調整は「モデルの構築方法」の一部です。これは正しいですか?これは私を混乱させるものだからです。他の場所では、展開する最終モデルを構築する手順には、固定値を使用したデータセット全体のトレーニングが含まれることがわかりましたCVを使用して選択されたハイパーパラメーターの。ここで、「モデルの構築方法」にはチューニングは含まれていません。それで、どちらですか?ある時点で、最適なハイパーパラメーターが選択され、最終モデルを構築するために修正されます!どこ?どうやって?内側のループが5倍のCVで、外側のループが5倍のCVで、内側のCVでのランダムグリッド検索の一部としてテスト用に100ポイントを選択した場合、実際にglmnetを何回トレーニングしますかモデル?(100 * 5 * 5)+ 1(最終ビルド用)、または私が知らないステップが他にありますか? 基本的に、ネストされたCVからパフォーマンスの見積もりを解釈する方法と、最終モデルを構築する方法について、非常に明確な説明が必要です。 また、最終的なglmnetモデルからの確率スコアを(バイナリ)クラスラベルに変換するための確率しきい値を選択するための適切な手順を知りたい--- CVの別のループが必要ですか?

1
BICは真のモデルを見つけようとしますか?
この質問は、AICとBICの違いに関するトピックIおよび他の多くのトピックに関する混乱を解決するためのフォローアップまたは試みです。このトピックに関する@Dave Kellenによる非常に良い回答(/stats//a/767/30589)を読んでください: あなたの質問は、AICとBICが同じ質問に答えようとしていることを意味しますが、これは真実ではありません。AICは、未知の高次元の現実を最も適切に説明するモデルを選択しようとします。これは、現実が考慮されている候補モデルのセットに決して含まれないことを意味します。それどころか、BICは候補のセットの中からTRUEモデルを見つけようとします。研究者が道に沿って構築したモデルの1つで現実が具体化されるという仮定は非常に奇妙です。これは、BICにとって本当の問題です。 以下のコメントで@ gui11aumeが読みました: (-1)すばらしい説明ですが、私は主張に挑戦したいと思います。@Dave Kellen TRUEモデルがBICのセットのどこにあるべきかという考えをどこで参照してください。この本で著者がこれが事実ではないという説得力のある証拠を与えるので、私はこれについて調査したいと思います。– gui11aume 12年5月27日21:47で このアサーションはシュワルツ自身(1978)から来ているようですが、アサーションは必要ではありませんでした。 Burnham and Anderson、2004): BICの派生は、真のモデルの存在を前提としていますか、より厳密には、BICの使用時に真のモデルがモデルセット内にあると仮定しますか (シュワルツの派生はこれらの条件を指定しました。)...答え...いいえ。つまり、BIC(特定のベイズ積分の近似の基礎として)は、導出の基礎となるモデルが真であると仮定せずに導出できます(たとえば、Cavanaugh and Neath 1999; Burnham and Anderson 2002:293-5を参照)。確かに、BICを適用する際に、モデルセットに完全な現実を表す(存在しない)真のモデルを含める必要はありません。さらに、BICで選択されたモデルのtargbetモデルへの収束(iidサンプルの理想化のもとで)は、そのターゲットモデルが真のデータ生成分布でなければならないことを論理的に意味しません)。 ですから、このテーマについて議論したり、(もっと必要な場合は)何らかの説明をする価値があると思います。現在、私たちが持っているのは、AICとBICの違いに関して非常に高く評価された回答の下での@ gui11aumeからのコメントです(ありがとう!)。

3
Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用
これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。 私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。 各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。 私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。 Rを使用して統計分析を実行しています。 プライマリテキスト私が使用しているは... 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。 Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています。 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」 私は現在、Hosmer et al。の第4章の手順に従っています。「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。 ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。 ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。 ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔのβ^%= 100 θ^1- β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。 ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。 私の質問: ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか? 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか? ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ β%Δのβ^%Δβ^%\Delta\hat{\beta}\%Δのβ^%Δβ^%\Delta\hat{\beta}\% 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δのβ^%Δβ^%\Delta\hat{\beta}\% 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.