タグ付けされた質問 「stepwise-regression」

ステップワイズ回帰(往々にして前方または後方回帰と呼ばれます)には、回帰モデルを当てはめ、統計量、または情報基準に基づいて予測子を追加または削除して、最終モデルに*ステップワイズ*の方法で到達します。このタグは、前方選択、後方除去、および最良のサブセットの変数選択戦略にも使用できます。 tR2


1
RのAIC()とextractAIC()の違いは何ですか?
どちらのRのドキュメントもあまり明らかにしていません。このリンクから得られることは、どちらを使用しても問題ないということです。私が得られないのは、なぜ彼らが等しくないのかです。 事実:Rのステップワイズ回帰関数はをstep()使用しextractAIC()ます。 興味深いことに、Rの 'mtcars'データセットでlm()モデルとglm()'null'モデル(切片のみ)を実行すると、AICとで異なる結果が得られextractAIC()ます。 > null.glm = glm(mtcars$mpg~1) > null.lm = lm(mtcars$mpg~1) > AIC(null.glm) [1] 208.7555 > AIC(null.lm) [1] 208.7555 > extractAIC(null.glm) [1] 1.0000 208.7555 > extractAIC(null.lm) [1] 1.0000 115.9434 上記の両方のモデルが同じであり、両方のモデルでAIC()同じ結果が得られることを考えると、奇妙です。 誰も問題にいくつかの光を投げることができますか?

2
「段階的回帰」はどのように機能しますか?
次のRコードを使用して、プロビットモデルを適合させました。 p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') 私は何をしstepwise、backward/forward正確に行い、変数をどのように選択するのか知りたいですか?

3
ステップワイズ回帰の利点は何ですか?
私は問題への私のアプローチの多様性のために、段階的回帰を実験しています。だから、私は2つの質問があります: ステップワイズ回帰の利点は何ですか?その具体的な長所は何ですか? ステップワイズ回帰を使用して特徴を選択し、選択したすべての特徴をまとめて通常の回帰を適用するハイブリッドアプローチについてどう思いますか?

2
Rでのステップ出力の解釈
Rでは、stepコマンドはモデルへの入力変数を選択するのを助けることを意図していると思いますよね? 以下はexample(step)#-> swiss& から来ます step(lm1) > step(lm1) Start: AIC=190.69 Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC - Examination 1 53.03 2158.1 189.86 <none> 2105.0 190.69 - Agriculture 1 307.72 2412.8 195.10 - Infant.Mortality 1 408.75 2513.8 197.03 - Catholic 1 …

2
モデルの相互検証予測エラーの観点から見た、前方選択/後方除去に対するLASSOの優位性
を使用して、元のフルモデルから3つの縮小モデルを取得しました 前方選択 後方消去 L1ペナルティテクニック(LASSO) 順方向選択/逆方向除去を使用して取得したモデルの場合、で利用可能なCVlmパッケージのをDAAG使用して、予測誤差のクロス検証された推定値を取得しましたR。LASSOで選択したモデルにはを使用しましたcv.glm。 LASSOの予測誤差は、他の誤差よりも少なかった。したがって、LASSOを介して取得したモデルは、予測能力と変動性の点で優れているようです。これは常に発生する一般的な現象ですか、それとも問題固有ですか?これが一般的な現象である場合、これの理論的な理由は何ですか?

4
Rで変数/機能の選択を行うために相互検証を使用する方法はありますか?
削減したい約70の変数を含むデータセットがあります。私が探しているのは、次の方法でCVを使用して最も有用な変数を見つけることです。 1)ランダムに言う20変数を選択します。 2)stepwise/ LASSO/ lars/ etcを使用して、最も重要な変数を選択します。 3)〜50xを繰り返し、どの変数が最も頻繁に選択されている(削除されていない)かを確認します。 これはa randomForestが何をするかという線に沿っていrfVarSelますが、パッケージは因子/分類に対してのみ機能するようであり、連続従属変数を予測する必要があります。 私はRを使用しているので、あらゆる提案が理想的にそこで実装されます。

3
一般化線形混合モデル:モデルの選択
この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました: 私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル(主効果のみ)を与えたいと思います。 私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル(キーワード:データ浚渫)を比較するのはそれほど面白くありませんでした。 これについて同僚と話し合ったところ、GLMMで段階的(またはフォワード)モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値(たとえば、GLMMの尤度比検定に基づく)を使用する代わりに、AICを出入基準として使用する必要があります。 このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。 だから私は基本的に2つの質問があります: エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか?はいの場合、代替手段は何でしょうか? 上記の手順について説明している参考資料はありますか(最終報告の参考資料としても)? ベスト、 エミリア

2
ステップワイズ回帰手法はモデルの予測力を高めますか?
ステップワイズ回帰の多くの問題のいくつかを理解しています。ただし、学術的な取り組みとして、予測モデルに段階的回帰を使用したいと仮定し、それがパフォーマンスに与える影響をよりよく理解したいとします。 たとえば、線形モデルが与えられた場合、モデルで段階的回帰を実行すると、新しいデータが提示されたときにモデルの予測力が増加または減少する傾向がありますか? ステップワイズ回帰が予測能力に及ぼす理論的な影響はありますか? 実践的な経験も役立ちます。おそらく、ステップワイズ回帰が予測を向上させる状況とそうでない状況です。

2
「段階的モデル選択」とは正確には何ですか?
ステップワイズモデル選択のメリットについてはすでに説明しましたが、「ステップワイズモデル選択」または「ステップワイズ回帰」が正確に何であるかは、はっきりしなくなりました。私はそれを理解したと思ったが、もう確かではない。 私の理解では、これらの2つの用語は同義語であり(少なくとも回帰のコンテキストでは)、データが与えられた場合、「最適」または「最良」のモデルにおける予測変数の最適なセットの選択を指します。(ここにWikipediaのページがあり、ここに役立つと思われる別の概要があります。) 以前のいくつかのスレッド(例:ここでは自動モデル選択のアルゴリズム)に基づいて、段階的なモデル選択は主要な罪と見なされているようです。それでも、それは、尊敬されている統計学者と思われるものを含め、常に使用されているようです。または、用語を混同していますか? 私の主な質問は: 「段階的モデル選択」または「段階的回帰」とは、次のことを意味します 。A)尤度比検定などの逐次仮説検定を行うか、p値を調べるか。(ここに関連する投稿があります:段階的な選択を実行した後にp値が誤解を招くのはなぜですか?)これはそれが意味することであり、なぜ悪いのですか? または B)AIC(または類似の情報量基準)に基づく選択も同様に悪いと考えていますか?自動モデル選択のアルゴリズムの回答から、これも批判されているようです。一方、ウィッティンガム等。(2006; pdf)1 情報理論(IT)アプローチに基づく変数選択は段階的選択とは異なることを示唆しているようです(有効なアプローチのようです)...? そして、これが私のすべての混乱の原因です。 フォローアップするために、AICベースの選択が「段階的」に該当せず、不適切であると見なされる場合、追加の質問を次に示します。 このアプローチが間違っている場合、なぜそれが教科書や大学のコースなどで教えられているのですか?それはすべて間違っていますか? モデルに残す必要がある変数を選択するための適切な代替手段は何ですか?相互検証とトレーニングテストデータセット、およびLASSOを使用するための推奨事項を見つけました。 考えられるすべての変数を無差別にモデルに投入し、段階的な選択を行うことには問題があることに誰もが同意できると思います。もちろん、いくつかの健全な判断は、最初に何が起こるかを導くべきです。しかし、いくつかの(たとえば生物学的)知識に基づいて、可能な限られた数の予測変数から始めて、これらすべての予測変数が私たちの応答を説明しているとしたらどうでしょうか。このモデル選択のアプローチにはまだ欠陥がありますか?また、異なるモデル間のAIC値が非常に類似している場合(およびそのような場合にマルチモデル推論が適用される場合)は、「最良の」モデルの選択が適切でない場合があることを認めます。しかし、AICベースの段階的選択を使用するという根本的な問題は依然として問題ですか? どの変数が応答をどのように説明しているように見えるのかを調べている場合、「すべてのモデルが間違っているが、一部は有用である」ことがわかっているため、なぜこのアプローチが間違っているのでしょうか。 1. Whittingham、MJ、Stephens、PA、Bradbury、RB、およびFreckleton、RP(2006)。なぜ生態学と行動でまだ段階的モデリングを使用するのですか?Journal of Animal Ecology、75、pp。1182〜1189。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
段階的アプローチは最高の
フォワードステップワイズアプローチを使用して変数を選択する場合、最終モデルは可能な限り最高のを持つことが保証されますか?別の言い方をすれば、段階的アプローチは大域的最適または局所的最適のみを保証しますか?R2R2R^2 例として、10個の変数から選択して5変数モデルを作成する場合、ステップワイズアプローチで作成された最終的な5変数モデルは、可能なすべての5変数モデルの中で最も高いになります。建てられましたか?R2R2R^2 この質問は純粋に理論的であることに注意してください。つまり、高い値が最適かどうか、それがオーバーフィットにつながるかどうかなどについては議論していません。R2R2R^2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.