私は計量経済学とRの経験を持つ経済学の学生です。統計的に有意ではないにもかかわらず、回帰に変数を含めるべき状況があるかどうか知りたいですか?
私は計量経済学とRの経験を持つ経済学の学生です。統計的に有意ではないにもかかわらず、回帰に変数を含めるべき状況があるかどうか知りたいですか?
回答:
はい!
係数がゼロと統計的に区別できないことは、係数が実際にゼロであること、係数が無関係であることを意味するものではありません。効果が統計的有意性の任意のカットオフを通過しないということは、その効果を制御しようとしてはならないという意味ではありません。
一般的に言って、目前の問題とあなたの研究デザインは、リグレッサーとして何を含めるかをガイドするはずです。
そして、これを完全なリストとして受け取らないでください。さらに多くのことを考え出すのは難しくありません...
これが頻繁に発生する状況は、固定効果による回帰です。
パネルデータがあり、モデルのを推定するとします。
が固定効果として扱われる通常の最小二乗でこのモデルを推定することは、各個人インジケータ変数で通常の最小二乗を実行することと同等です。 I
とにかく、ポイントは変数(つまり、インジケーター変数の係数)がしばしば不十分に推定されるということです。個々の固定効果は、統計的に重要ではありん。ただし、固定効果を考慮している場合は、すべてのインジケーター変数を回帰に含めます。、U I
(さらに、ほとんどのstatsパッケージは、組み込みメソッドを使用する場合、個々の固定効果の標準エラーさえも与えないことに注意してください。個々の固定効果の重要性についてはあまり気にしません。 )
次の多項式を何らかの曲線に当てはめている場合、ほとんどの場合、低次の多項式の項が含まれます。
たとえば、2次多項式をフィッティングする場合は、次を実行します。
通常、を強制し、代わりに実行 するのは非常に奇妙ですy i = b 0 + b 2 x 2 i + ϵ i
しかし、ニュートン力学の学生は例外を想像することができます。
低次項も含めるAR(p)モデルを推定するとします。たとえば、AR(2)の場合:
そして、実行するのは奇妙です:
@NickCoxが言及しているように、と用語は同様に一緒になる傾向があります。詳細については、たとえばこのペーパーを参照してください。罪
適切な理論的理由がある場合は、右側の変数を含める必要があります。
また、ここおよびStackExchange全体での他の回答が説明しているように、段階的な変数選択は多数の統計上の問題を引き起こす可能性があります。
以下を区別することも重要です。
後者の場合、係数が重要ではないと主張するのは問題です。単純に測定が不十分な場合があります。
はい、あります。統計的に意味のないレベルであっても、意味のある方法で応答変数と相関する可能性のある変数は、含まれていない場合、回帰を混乱させる可能性があります。これは仕様の不足として知られており、そうでない場合ほど正確ではないパラメーター推定につながります。
https://onlinecourses.science.psu.edu/stat501/node/328
上記から:
回帰式に1つ以上の重要な予測変数が欠落している場合、回帰モデルは指定不足です(結果2)。この状況はおそらく最悪のシナリオです。なぜなら、指定不足のモデルでは、バイアスされた回帰係数とレスポンスのバイアスされた予測が得られるからです。つまり、モデルを使用する際に、母集団の勾配と母平均を常に過小評価または過大評価します。すでに悪い問題をさらに悪化させるために、平均二乗誤差MSEはσ²を過大評価する傾向があり、それによって必要以上に信頼区間が広くなります。
通常、線形回帰の変数は重要であるため、含めたり除外したりしません。選択した変数が回帰基準の(良い)予測子であると仮定するため、それらを含めます。つまり、予測子の選択は理論に基づいています。
線形回帰の統計的有意性は、次の2つのことを意味します(そのことは知っています)。
重要でない予測子を除外する正当な理由は、基準の分散またはその大部分を説明する予測子の最小サブセットを探していることです。見つかった場合は、理論を確認してください。
計量経済学では、これは左右に起こります。たとえば、四半期ごとの季節性ダミーQ2、Q3、およびQ4を使用している場合、グループとして重要であることがよくありますが、それらのいくつかは個別に重要ではありません。この場合、通常はすべてを保持します。
別の典型的なケースは相互作用です。モデル考えます。主効果は重要ではありませんが、相互作用は重要です。この場合、主効果を維持するのが習慣です。あなたがそれを落とすべきではない理由はたくさんあり、それらのいくつかはフォーラムで議論されました。zのX * Z
更新:別の一般的な例は予測です。計量経済学は通常、経済学部門の推論の観点から教えられます。推論の観点では、何が何を引き起こすのかを理解しようとしているため、p値と有意性に多くの注意が向けられています。予測では、モデルが関心のある変数をどれだけうまく予測できるかが重要であるため、このようなことにはあまり重点が置かれていません。
これは、最近経済学に進出している機械学習アプリケーション(btw)に似ています。よく予測できないすべての重要な変数を含むモデルを作成できます。MLでは、いわゆる「オーバーフィッティング」に関連付けられることがよくあります。明らかに、予測ではそのようなモデルの使用はほとんどありません。
次の2つの質問をしています:
編集:これは元の投稿には当てはまりましたが、編集後は当てはまらない可能性があります。
第1四半期については、広すぎるという境界にあると思います。多くの可能な答えがあり、いくつかはすでに提供されています。もう1つの例は、予測用のモデルを構築する場合です(説明については、下記のソースを参照してください)。
Q2に関して、統計的有意性はモデル構築の健全な基準ではありません。Rob J. Hyndmanは、ブログ投稿「変数選択の統計テスト」で次のように書いています。
統計的有意性は、変数をモデルに含める必要があるかどうかを判断するための通常の基礎ではありません。<...>統計的検定は、変数を選択するのではなく、仮説を検定するために設計されました。
また、偶然だけで統計的に有意な変数を見つけることがあることに注意してください(確率は、選択した有意水準によって制御されます)。変数が統計的に有意であるという観察は、変数がモデルに属していると結論付けるのに十分ではありません。
別の「はい」を追加します。私はいつも共変量の選択における第一の考慮事項が統計ではなく領域の知識であることを教えてきました-そしてそれを伝えようとしました-。私は個人にいくつかの健康上の成果をモデル化していた場合に生物統計学では、例えば、その後、関係なく、どのような回帰が言うには、モデルの年齢、人種、性別を含めない私のためにいくつかのくそ良いの引数を必要としないでしょう。
また、モデルの目的にも依存します。目的が結果に最も関連している要因をよりよく理解することである場合、par約的なモデルの構築にはいくつかの長所があります。予測を重視し、理解を重視するのでなければ、共変量を排除することはささいな懸念かもしれません。
(最後に、変数の選択に統計を使用する場合は、フランク・ハレルがこのテーマについて何を言っているかを確認してください-http ://www.stata.com/support/faqs/statistics/stepwise-regression-problems/、そして彼の著書回帰モデル戦略簡単に言えば、あなたが使用段階的または最良の予測因子を選択するための同様の統計に基づいた戦略をした時には、「これらの良好な予測因子である?」のいずれかのテストがひどく偏っていることで- 。のコース彼ら」良い予測子であるため、それらに基づいてそれらを選択したため、これらの予測子のp値は誤って低くなります。)
「統計的有意性」の結果が本当に言う唯一のことは、タイプIエラーの選択されたレベルでは、従属変数に対するリグレッサーの効果が正か負かを判断することすらできないことです(この投稿を参照)。
したがって、このリグレッサーを保持する場合、従属変数に対するそれ自体の影響に関する議論には、それをバックアップする統計的証拠はありません。
しかし、この推定の失敗は、リグレッサが構造関係に属していないことを示しているのではなく、特定のデータセットでは係数の符号を確実に決定することができなかったことを示しているだけです。
したがって、原則として、その存在をサポートする理論的議論がある場合、リグレッサーを保持する必要があります。
ここでの他の回答は、そのようなリグレッサが仕様に保持されている特定のモデル/状況を提供しました。たとえば、固定効果パネルデータモデルに関する回答です。
統計的に有意ではない場合でも、研究の焦点である場合は、特に関心のある変数を含めることができます。また、生物統計学では、臨床的意義はしばしば統計的意義とは異なります。