タグ付けされた質問 「stepwise-regression」

ステップワイズ回帰(往々にして前方または後方回帰と呼ばれます)には、回帰モデルを当てはめ、統計量、または情報基準に基づいて予測子を追加または削除して、最終モデルに*ステップワイズ*の方法で到達します。このタグは、前方選択、後方除去、および最良のサブセットの変数選択戦略にも使用できます。 tR2

8
自動モデル選択のアルゴリズム
自動モデル選択のアルゴリズムを実装したいと思います。私は段階的な回帰を行うことを考えていますが、何でもできます(ただし、線形回帰に基づいている必要があります)。 私の問題は、方法論やオープンソースの実装を見つけることができないことです(Javaで目が覚めています)。私が念頭に置いている方法論は次のようなものです。 すべての因子の相関行列を計算する 互いに相関の低い要因を選択する t-statが低い因子を削除する 他の要素を追加します(2。 いくつかの基準(AICなど)が特定のしきい値を超えるか、それ以上にならないか、より大きな値が見つからなくなるまで、何度も繰り返します。 このためのR実装(stepAIC)があることはわかっていますが、コードを理解するのは非常に困難です。また、段階的回帰を説明する記事を見つけることができませんでした。

5
段階的回帰の最新の簡単に使用できる代替手段は何ですか?
約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル(GLM)を構築したいと思います。 この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています。 この状況では、どのような最新のモデル選択方法を使用する必要がありますか?

5
多くの独立変数から重要な予測因子を検出する
2つの重複しない母集団(患者と健康、合計n=60n=60n=60)のデータセットで、(300300300独立変数から)連続従属変数の有意な予測子を見つけたいと思います。予測変数間の相関が存在します。予測変数のいずれかが(可能な限り正確に従属変数を予測するのではなく)「実際に」従属変数に関連しているかどうかを調べることに興味があります。多数の可能なアプローチに圧倒されたので、どのアプローチが最も推奨されるかを尋ねたいと思います。 私の理解から、予測因子の段階的な包含または除外は推奨されません たとえば、予測子ごとに個別に線形回帰を実行し、FDRを使用した多重比較のためにp値を修正します(おそらく非常に保守的ですか?) 主成分回帰:個々の予測変数の予測力については説明できず、コンポーネントについてのみ説明できるため、解釈が困難です。 他の提案はありますか?

2
段階的な選択を実行した後にp値が誤解を招くのはなぜですか?
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。

3
AICまたはp値:モデル選択のためにどれを選択しますか?
私はこのRに関してはまったく新しいのですが、どのモデルを選択すればよいかわかりません。 最も低いAICに基づいて各変数を選択して、段階的な前方回帰を行いました。どのモデルが「ベスト」かわからない3つのモデルを思いつきました。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 モデル#3にはAICが最も低く(ネガティブは大丈夫だと聞いた)、p値がまだかなり低いため、モデル#3を使用する傾向があります。 Hatchling Massの予測変数として8つの変数を実行しましたが、これら3つの変数が最適な予測変数であることがわかりました。 AICが少し大きかったとしても、p値はすべて小さかったため、次の段階的なモデル2を選択しました。これが最高だと思いますか? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model …

1
ステップワイズ回帰を使用したことによるハウラー
私は回帰モデルにおける段階的/前方/後方選択の問題をよく知っています。研究者が方法を非難し、より良い代替案を指摘している多くの事例があります。統計分析が存在するストーリーが存在する場合、私は興味がありました: 段階的回帰を使用しました。 最終モデルに基づいていくつかの重要な結論を出しました 結論が間違っていて、個人、研究、または組織にマイナスの結果をもたらした 段階的な方法が悪い場合、これについての私の考えは、それらを使用するための「現実の世界」に結果があるはずです。

2
ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定
ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか? さらに、モデルの全体的な重要性をテストすることに興味があります(つまり、R²= 0を実行するか、すべてを= 0にします)。 ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。 回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。 それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。 残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。 したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。

2
LASSOには、段階的回帰と同じ問題がありますか?
段階的アルゴリズムの変数選択方法は、回帰モデルのすべての推定値(およびそのSE、p値、F統計量など)に多かれ少なかれバイアスをかけるモデルを選択する傾向があり、ほぼ真の予測子を除外する可能性が高い適度に成熟したシミュレーション文献によると、誤った予測変数を含めます。ββ\beta LASSOは、変数を選択するために使用される場合、同じ特定の方法で影響を受けますか?

1
Stepwise AIC-このトピックをめぐる論争は存在しますか?
このサイトで、p値ベース、AIC、BICなど、あらゆる種類の基準を使用した変数の段階的な選択の使用に信じられないほど多くの投稿を読みました。 これらの手順が一般に、変数の選択に非常に悪い理由を理解しています。ここでの gungのおそらく有名な投稿は、その理由を明確に示しています。最終的には、仮説を立てるのに使用したのと同じデータセットで仮説を検証しています。これは単なるデータのedです。さらに、p値は共線性や外れ値などの量の影響を受け、結果が大きく歪むなど。 しかし、私は最近かなり時系列の予測を研究しており、特にARIMAモデルの最適な順序を見つけるための段階的選択の使用について彼がここで言及している Hyndmanの評判の高い教科書に出会いました。実際、forecastR のパッケージでは、auto.arimaデフォルトで知られているよく知られているアルゴリズムは、(p値ではなくAICを使用して)ステップワイズ選択を使用します。彼はまた、このウェブサイト上の複数の投稿とうまく調和するp値ベースの機能選択を批判しています。 最終的に、目標が予測/予測の優れたモデルを開発することである場合、最後に何らかの方法で常に相互検証する必要があります。ただし、p値以外の評価指標の手順自体に関しては、これは多少不一致です。 この文脈での段階的なAICの使用について、しかしこの文脈からも一般的には誰も意見がありますか?私は、段階的な選択はどれも貧弱だと信じていると教えられてきましたが、正直なところ、auto.arima(stepwise = TRUE)サンプル結果からより良い結果を得ていますauto.arima(stepwise = FALSE)が、これは単なる偶然かもしれません。

2
LASSO / LARS vs一般から特定(GETS)メソッド
私は、基本的には段階的な前方選択の単なるバリエーションであり、したがってパス依存性に苦しんでいるにもかかわらず、なぜLASSOおよびLARSモデル選択方法がそんなに人気があるのだろうと思いました。 同様に、モデル選択の一般から特定(GETS)メソッドは、ステップワイズ回帰の問題がないためLARS / LASSOよりも優れているにもかかわらず、ほとんど無視されるのはなぜですか?(GETSの基本リファレンス:http : //www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-この中で最も新しいアルゴリズムは、パスの依存関係を回避する広範なモデルとツリー検索で始まり、多くの場合、LASSO / LARSよりも優れています)。 奇妙に思えますが、LARS / LASSOはGeneral to Specific(GETS)よりもはるかに多くの露出と引用を得ているようです。 激しい議論を始めようとせず、文献がGETSではなくLASSO / LARSに焦点を当てている理由の合理的な説明を探しており、実際にLASSO / LARSの欠点を指摘している人はほとんどいません。

2
段階的回帰は、母集団のr平方の偏った推定値を提供しますか?
心理学やその他の分野では、次のような段階的な回帰の形式がよく使用されます。 残りの予測子(最初はモデルにない予測子)を見て、最大のr平方変化をもたらす予測子を特定します。 r平方変化のp値がアルファ(通常.05)より小さい場合は、その予測子を含めて手順1に戻ります。それ以外の場合は停止します。 たとえば、SPSSのこの手順を参照してください。 この手順は、さまざまな理由で日常的に批判されています(StataのWebサイトでこの議論を参照してください)。 特に、StataのWebサイトには、Frank Harrellによるいくつかのコメントがまとめられています。私は主張に興味があります: [ステップワイズ回帰]は、大きく偏ったR乗値を生成します。 具体的には、私の現在の研究のいくつかは、母集団r-squareの推定に焦点を当てています。母集団のr二乗によって、母集団の方程式を生成する母集団データによって説明される分散の割合を参照します。私がレビューしている既存の文献の多くは、段階的な回帰手順を使用しており、提供された推定値が偏っているかどうか、もしそうであればどの程度かを知りたいです。特に、典型的な研究では、30の予測変数、n = 200、.05のエントリのアルファ、および.50前後のr二乗推定値があります。 私が知っていること: 漸近的に、係数がゼロでない予測子は統計的に有意な予測子となり、r-squareは調整されたr-squareと等しくなります。したがって、漸近的な段階的回帰では、真の回帰方程式と真の母集団r平方を推定する必要があります。 サンプルサイズが小さい場合、一部の予測子が省略される可能性があるため、すべての予測子がモデルに含まれていた場合よりもr平方が小さくなります。しかし、データをサンプリングするためのr-squareの通常のバイアスもr-squareを増加させます。したがって、私の素朴な考えは、これらの2つの対立する力が特定の条件下で不偏のr二乗になる可能性があるということです。より一般的には、バイアスの方向は、データのさまざまな機能とアルファ包含基準に依存します。 より厳密なアルファ包含基準(たとえば、.01、.001など)を設定すると、データの生成に予測子が含まれる確率が低くなるため、予想される推定r-squareが低くなります。 一般に、r-squareは母集団r-squareの上方に偏った推定値であり、この偏りの程度は、予測子が多くなり、サンプルサイズが小さくなると増加します。 質問 最後に、私の質問: 段階的回帰からのr 2乗は、どの程度まで人口r 2乗の偏った推定値になりますか? このバイアスは、サンプルサイズ、予測子の数、アルファ包含基準、またはデータのプロパティにどの程度関連していますか? このトピックに関する参照はありますか?

2
健全な段階的回帰?
バイナリ分類子を作成するとします。私は数千の機能と数十のサンプルしか持っていません。ドメインの知識から、クラスラベルは少数の機能のみを使用して正確に予測できると信じるに十分な理由がありますが、どの機能かはわかりません。また、最終決定ルールを解釈/説明しやすくし、さらにいくつかの機能を必要とします。私の機能の特定のサブセットは高度に相関しているため、最も予測の少ない少数を個別に選択しても機能しません。また、自分の機能に対して仮説検定を有意義に実行できるようにしたいと考えています。 これらの条件下で、次の段階的な回帰手順は妥当ですか? モデルに既に存在する特徴(または最初の反復での切片のみ)が与えられると、モデルに追加されたときに最大の対数尤度比を生成する特徴を選択します。尤度比カイ二乗検定を使用して、この選択で実行された各仮説検定の名目P値を計算します。ここでのヌルは、追加の変数をモデルに追加しても追加の予測機能が提供されないことです。代替手段は、予測能力を高めることです 各反復のステップ1でテストされた仮説を家族として扱い、Benjamini-Hochbergのようなものを使用して、最小のP値(選択した特徴)の誤検出率を計算します。 いくつかの停止基準が満たされない限り、1に移動します。 個々のフィーチャの誤検出率を報告しますが、モデル全体のP値は報告しません(これは大幅に膨張するため)。これらの複数のテストで修正されたP値のそれぞれは、以前にモデルに追加されたすべての機能を考慮して、その機能の統計的有意性を表します。 これらの状況下でこのようなことをすることで、ステップワイズ回帰の典型的な批判をすべてうまく回避できますか?この方法で誤検出率は合理的に計算されていますか?

2
Rでのdrop1出力の解釈
Rでは、drop1コマンドは適切なものを出力します。 次の2つのコマンドにより、出力が得られます。 example(step)#-> swiss drop1(lm1, test="F") 私のものは次のようになります。 > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …

5
段階的なロジスティック回帰とサンプリング
SPSSのデータセットに段階的なロジスティック回帰を当てはめています。手順では、モデルをランダムなサブセットに近似しています。合計サンプルの60%、約330ケースです。 おもしろいと思うのは、データをリサンプリングするたびに、最終モデルでさまざまな変数が出入りするということです。最終モデルには常に少数の予測変数が存在しますが、サンプルに応じて他の予測変数が表示されます。 私の質問はこれです。これを処理する最良の方法は何ですか?予測変数の収束を見たいと思っていましたが、そうではありません。一部のモデルは、運用の観点からはるかに直感的な意味を持ち(意思決定者に説明する方が簡単です)、他のモデルはデータによりやや適合しています。 要するに、変数はシャッフルされているので、私の状況に対処することをどのようにお勧めしますか? 事前に感謝します。

2
段階的回帰を使用する必要がある状況はありますか?
過去に多くの生物医学論文で段階的回帰が多用されていましたが、これは多くの問題のより良い教育により改善しているようです。ただし、多くの古いレビュアーはまだそれを求めています。ステップワイズ回帰に​​役割があり、使用する必要がある場合、どのような状況ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.