モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?


39

モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか?

この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか

しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。

CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。)

それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。)

複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。


6
一般的に言えば、データがその効果をサポートしていない場合でも、理論的に重要な変数または以前の研究で重要だった変数を保持する必要があると思います。そうは言っても、より具体的な答えを得るには、モデルとその目的を説明するために2、3行を追加する必要があると思います(リスク要因の特定、予測の作成など)。
ocram

私はそれが依存すると言うでしょう。テストは単なる指標です。小さな依存関係があると思われる場合は、モデルを維持することを検討してください。依存関係が存在するべきではないと考えている場合は、それを除外します。
ベネ

さて、あなたは両方とも、有意ではないことは共変量が考慮から除外されることを決定しないと言っているので、あなたは両方とも実際に私の質問に答えました。私が質問しているのは、共変量の統計的有意性がそれを維持するために必要な条件であるかどうかをより明確に示すために実際に質問を言い換えるべきです(「共変量の非有意性は削除されることを意味します...」)、どちらのコメントも回答として受け入れます。
AM

ただし、その前に、正しい用語を使用していることを確認したいと思います。もともと「モデルに保持」と書きましたが、共変量がモデルに表示されないため、正しくありませんでした。私は「モデルの計算を維持」(および「検討から除外」)に決着しましたが、これを言うより良い方法はありますか?共変量を保持または削除する適切な用語は何ですか?
AM

3
このような選択手順の正しいパフォーマンスを検証する必要があります。その他は失敗しました。
フランクハレル

回答:


32

あなたはすでにいくつかの良い答えを得ています。共変量を保持する理由と共変量を削除する理由があります。ほとんどの場合、統計的有意性は重要な要因ではありません。

  1. 共変量は、そこに存在する必要があるほど実質的に重要である可能性があります。
  2. 有意でない場合でも、共変量の効果サイズは大きくなる場合があります。
  3. 共変量は、モデルの他の側面に影響を与える可能性があります。
  4. 共変量は、仮説の表現方法の一部である可能性があります。

あなたは非常に探索モードの場合共変量は、文献では重要ではありませんし、効果サイズが小さい共変量がモデルにほとんど影響を与えないと、共変量は、あなたの仮説ではありませんでした、そして、あなたはおそらく簡単にするためにそれを削除することができ。


6
非常に重要ですが、しばしば無視されている状況は、ここの4番目で説明されていますが、詳しく説明します。多くの場合、実際、通常、同様のデータを持つ以前のワーカーの結果と結果を比較する必要があります。他の人がモデルに含める価値のある特定の共変量を見つけた場合、共変量が(従来の)有意水準を達成するかどうかに関係なく、結果をそれらと比較する必要があります。ここでのケースは、(特に)良くないと判断したレポートモデルから、良いと判断したレポートモデルまでさまざまです。
ニックコックス

1
私は間違いなく「キープイン」に傾いていました(そして、そもそも共変量のp値をあまり得ていませんでした)が、あなたの答えは、少数派が取るための非常に素晴らしいチェックリスト(まあ... 2つ)になります。効果の大きさは私が考慮していなかったものであり、仮説を考慮しましたが、@ NickCoxが言及した理由と単に釣りを思いとどまらせるために、私はあなたがそれを含めたことを非常に気に入っています。
AM

25

長い答えは「はい」です。重要でない予測変数を削除する理由はほとんどなく、そうでない多くの理由があります。それらを解釈する限り、他の予測変数を解釈するように値を無視します。予測変数の興味深い範囲にわたる効果の信頼区間を使用します。P


10
長い答えは「はい」です!+1とLOL。
ピーターフロム-モニカの復職

p値でない場合、予測変数を削除する他の理由は何ですか?信頼区間の解釈に言及しますが、「関心のある範囲」はゼロになるようです。つまり、人々はCIをp値(ゼロの包含または除外)のように解釈します。
マークホワイト

1
これにより統計特性が歪む場合、予測変数を削除する理由は何ですか?あなたの質問と「ゼロ」について明確ではありません。
フランクハレル

7

有用な洞察の1つは、統計的に話す共変量について実際に特定のものは何もないということです。たとえば、共変量を回帰式に書き込むヘルプを参照してください。ちなみに、covariateタグがない理由を説明するかもしれません。したがって、ANCOVAが明示的に言及されていなくても、線形モデルの重要でない用語に関するここおよびその他の資料は、ステップワイズ回帰のよく知られた批評家と同様に関連しています。

一般的に言えば、有意性のみに基づいて予測変数を選択するのは悪い考えです。何らかの理由でモデルを事前に指定できない場合、他のアプローチを検討する必要がありますが、そもそもそれらを含めることを計画し、それに応じてデータを収集し、特定の問題(共線性など)に直面していない場合は、そのままにしてください。

それらを保持する理由に関して、あなたが思いついた異議は私には聞こえます。もう1つの理由は、重要でない予測変数を削除すると、モデルに基づいて推論が偏るからです。これをすべて見る別の方法は、事実の後にこれらの共変量を削除することによって何が得られるかを尋ねることです。


4

この質問に答えるには、目標に関する詳細な情報が本当に必要です。回帰は、主に2つの目的で使用されます。

  1. 予測
  2. 推論

予測とは、サンプルに含まれない観測値の結果変数の値を推測できるようにすることです(通常はサンプルデータの範囲内ですが、そうでない場合は「予測」という言葉を使用することもあります)。予測は、広告目的、金融などに役立ちます。結果変数の予測に興味があるだけの場合は、ほとんど提供しません。

推論は、楽しみがどこにあるかです(たとえお金がなくても)。推論は、特定のモデルパラメーターについて結論を下す場所です。通常は、ある変数の別の変数に対する因果効果を判断するために使用されます。一般的な認識にもかかわらず、因果推論には回帰分析だけでは十分ではありません。回帰が因果効果を捕らえるかどうかを知るために、データ生成プロセスについて常にもっと知る必要があります。回帰からの因果推論の重要な問題は、エラーの条件付き平均(リグレッサの条件付き)がゼロであるかどうかです。これは、リグレッサのp値から知ることはできません。偏りのない、または一貫性のある回帰エスティメータを使用することは可能ですが、それは単に明らかなコントロールを回帰に投げ込み、重要なコントロールを取得することを期待するよりもはるかに多くの労力を必要とします。マスタリング「メトリクス:原因から結果への道ほとんど無害な計量経済学」)。マスタリングメトリックは読みやすく、非常に安価ですが、回帰を行う方法ではなく、それらが意味するものを扱うものではないことに注意してください。良い観察研究デザインと悪い観察研究デザインの例を十分に網羅するために、David Freedman(1991)の「Statistical Models and Shoe Leather」、Sociological Methodology、ボリューム21(魅力的な例を含む短くて読みやすい)をお勧めします。

余談ですが、ほとんどの大学のコースでの優れた研究デザインに対する統計的手法への執着は、私の教育的苦労です。

この問題の現在の重要性を動機付けるもう1つの理由は、予測と推論の違いが、ビッグデータが科学の代わりにならない理由です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.