データベースの基準を使用して回帰モデルを指定できるのはいつですか?


20

多くの回帰モデル仕様(OLSなど)がデータセットの可能性と見なされると、これが多重比較の問題を引き起こし、p値と信頼区間はもはや信頼できないと聞きました。これの極端な例は、段階的回帰です。

モデルを指定するのにデータ自体を使用できるのはいつですか?また、これはいつ有効なアプローチではありませんか?モデルを形成するには、常に主題に基づいた理論が必要ですか?

回答:


9

一般に、変数選択手法(段階的、逆方向、順方向、すべてのサブセット、AICなど)は、母集団に存在しないサンプルデータの偶然またはランダムパターンを利用します。これの専門用語は過剰適合であり、小さなデータセットでは特に問題がありますが、それらに限定されません。最適な適合に基づいて変数を選択する手順を使用することにより、この特定のサンプルに適合しているように見えるランダムな変動はすべて、推定値と標準誤差に寄与します。これは、モデルの予測と解釈の両方の問題です。

具体的には、r-squaredが高すぎてパラメーター推定値に偏りがあり(0から遠すぎます)、パラメーターの標準誤差が小さすぎます(したがって、パラメーターの周りのp値と間隔が小さすぎます/狭すぎます)。

これらの問題に対する最善の防御策は、思慮深くモデルを構築し、理論、論理、および以前の知識に基づいて意味のある予測子を含めることです。変数の選択手順が必要な場合は、パラメーターと標準誤差を調整して過剰適合を考慮し、パラメーター推定値にペナルティを与える方法(収縮方法)を選択する必要があります。一般的な収縮方法には、リッジ回帰、最小角回帰、またはなげなわがあります。さらに、トレーニングデータセットとテストデータセットまたはモデル平均化を使用した相互検証は、過剰適合の影響をテストまたは軽減するのに役立ちます。

ハレルは、これらの問題の詳細な議論のための素晴らしい情報源です。 ハレル(2001)。「回帰モデリング戦略。」


久しぶりに受け入れます!技術的な問題の詳細な概要をお寄せいただきありがとうございます。Harrellの本をご覧ください。
Statisfactions

7

私の出身である社会科学の文脈では、問題は、(a)予測か(b)焦点を絞った研究質問に興味があるかどうかです。目的が予測の場合、データ駆動型アプローチが適切です。目的が焦点を絞った研究の質問を調べることである場合、どの回帰モデルが質問を具体的にテストするかを考慮することが重要です。

たとえば、タスクが一連の選択テストを選択してジョブのパフォーマンスを予測することであった場合、ある意味では、目標はジョブのパフォーマンスの予測を最大化することの1つと見なすことができます。したがって、データ駆動型のアプローチが役立ちます。

対照的に、パフォーマンスに影響を与えるパーソナリティ変数と能力変数の相対的な役割を理解したい場合は、特定のモデル比較アプローチがより適切かもしれません。

通常、焦点を絞った研究の質問を探索するときの目的は、最適な予測を備えたモデルの開発とは対照的に、動作している根本的な因果プロセスについて何かを解明することです。

断面データに基づいたプロセスに関するモデルを開発しているときは、次のことに注意してください。(a)理論的には結果変数の結果と考えられる予測子を含める。例えば、彼らが良いパフォーマンスをしているという人の信念は仕事のパフォーマンスの良い予測因子ですが、これは彼らが自分のパフォーマンスを観察したという事実によって少なくとも部分的に引き起こされている可能性があります。(b)同じ根本的な現象をすべて反映する多数の予測変数を含める。たとえば、20項目を含み、すべてがさまざまな方法で人生に対する満足度を測定します。

したがって、焦点を絞った研究の質問は、ドメイン固有の知識により依存しています。これはおそらく、データ駆動型のアプローチが社会科学であまり使用されない理由を説明するのに役立つでしょう。


4

モデル選択に含まれるすべてのテストとステップは独立していないため、Bonferoniまたは同様の修正を行って回帰の変数選択を調整することは不可能だと思います。

1つのアプローチは、1つのデータセットを使用してモデルを作成し、異なるデータセットで推論を行うことです。これは、トレーニングセットとテストセットがあるすべての時間の予測で行われます。他の分野ではあまり一般的ではありません。おそらく、データが非常に貴重なので、モデルの選択と推論にすべての観測を使用したいからです。ただし、質問で指摘しているように、欠点は推論が実際に誤解を招くということです。

十分に発達した理論がないため、理論に基づいたアプローチが不可能な多くの状況があります。実際、これは理論がモデルを示唆する場合よりもはるかに一般的だと思います。


4

リチャードバークは最近の記事で、そのようなデータスヌーピングと統計的推論の問題をシミュレーションで示しています。ロブが示唆したように、複数の仮説検定を単に修正するよりも問題が多い。

モデル選択後の統計的推論 :Richard Berk、Lawrence Brown、Linda Zhao Journal of Quantitative Criminology、Vol。26、No。2(2010年6月1日)、pp。217-236。

PDF版はこちら


(+1)リンクをありがとう!この関連質問stats.stackexchange.com/questions/3200/…に興味があるかもしれません。気軽に貢献してください。
chl

@chl、その質問に対するすでに優れた答えに何も追加できないと思います。私は実際に、ブレンダンの回答は非常に痛烈だと思います。なぜなら、元のポスターは質問の文脈に基づく予測だけでなく、因果推論に本当に関心があると思うからです。
アンディW

はい、私は彼の答えを考えていました。データdr問題(モデル/変数選択の問題や因果推論に関するものではありません)についての反省を開始しましたが、これまでのところほとんど応答がありません。あなたがあなた自身のアイデアを追加したい場合は、それは興味深いものになるだろう:stats.stackexchange.com/questions/3252/...
CHL

2

私があなたの質問の権利を理解していれば、あなたの問題に対する答えは仮説の数に応じてp値を修正することです。

たとえば、Holm-Bonferoni補正では、仮説(=異なるモデル)をp値でソートし、(望ましいp値/インデックス)よりもap samllerの仮説を拒否します。

トピックに関する詳細は、ウィキペディアで見つけることができます


1
あなたはこのようにしてp値を調整する最善の解決策ではないかもしれない理由を別々の質問にこの答えを読んで見たいと思っても、stats.stackexchange.com/questions/3200/...
アンディ・W
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.