回帰モデルから用語を削除する場合


20

以下が理にかなっている場合、誰でもアドバイスできますか?

4つの予測子を持つ通常の線形モデルを扱っています。最下位の用語を削除するかどうかは、2つの考えに基づいています。それはだ -値が0.05以上少ないです。私はこれらの線に沿ってそれをドロップすることに賛成しました:この用語の推定値に(例えば)この変数のサンプルデータの四分位範囲を掛けると、この用語を維持することがモデル全体に​​及ぼす臨床効果に何らかの意味を与えます。この数は非常に低く、臨床設定で変数を測定するときに変数が取ることができる典型的な日中の値の範囲にほぼ等しいため、臨床的に重要ではないと見なし、したがってより節約的なモデルを提供するためにドロップすることができますドロップすると、調整されたが少し減少します。R 2pR2


1
なぜもっとパルシモニウスのモデルを探すのですか?
マイケルビショップ

3
節約自体は良いことではありませんか?私はそれを見る方法、臨床意味ではほとんど、あるいは全く説明力を追加した変数を持つモデルは、これらの変数は、統計的な意味で重要である場合でも、それらの変数なしの小さいモデルよりも悪いです
P Sellaz

答えを書くことにしました:stats.stackexchange.com/questions/17624/…。しかし、要するに、いいえ、私はpar約自体が良いことだとは思いません。特定の理由で役立つ場合があります。
マイケルビショップ

1
マイケルに同意します。「有意」である機会が与えられた場合、明確な説明能力のない変数を含めるのが最善です。あなたはすでにそれらの自由度を費やしました。
フランクハレル

有意な回帰変数ではない予測変数は、相関する回帰変数の場合、他の有意な回帰変数に影響を与えることで、説明された分散にゼロ以外の量を与える可能性があることに注意してください。特に、予測子が4つだけの場合、リグレッサーが相関している場合は、モデルに重要でない予測子を保持することを支持します。
トーボン

回答:


18

節約の願いを理解したことはありません。節約を求めると、統計的推論のすべての側面(回帰係数のバイアス、標準誤差、信頼区間、P値)が破壊されます。変数を保持する正当な理由は、これにより信頼区間およびその他の量の精度が保持されることです。このように考えてください。通常の重回帰では、残差の不偏推定量は2つしか開発されていません。(1)事前に指定された(大きな)モデルからの推定、および(2)見かけ上の(減少した)回帰自由度の自由度(GDF)。GDFは、最終的な「重要な」パラメーターの数よりも候補パラメーターの数にはるかに近くなります。

これを考える別の方法があります。5つの治療を比較するためにANOVAを行い、4 df F検定を取得したとします。次に、何らかの理由で、t検定を使用した処理間のペアワイズの違いを見て、いくつかの処理を結合または削除することにしました(これは、4つのダミー変数でP、AIC、BIC、Cpを使用して段階的な選択を行うことと同じです)。結果の1、2、または3 dfのF検定では、タイプIエラーが増大します。4 dfの元のF検定には、完全な多重度調整が含まれていました。


3
+1 Parsimonyは、非常に特定のコンテキストでのみ意味をなすことが多いものです。両方を行うのに十分な精度がある場合、バイアス対精度のゲームをプレイする理由はありません。
フォマイト

2
+1がすばらしい答えです。しかし、多重共線性があり、変数を削除すると減少しますか?(これは元の質問には当てはまりませんが、多くの場合他のデータにあります)。結果として得られるモデルは、あらゆる種類の方法で優れていることはよくありません(推定量の分散、基礎となる理論を反映する可能性が高い係数の符号などを削減します)。それでも正しい(元のモデル)自由度を使用している場合。
ピーターエリス

4
両方の変数を含めることをお勧めします。あなたが支払う唯一の価格は、他の変数に合わせて調整された変数の効果の一方を推定する際の標準誤差の増加です。2つの共線変数の共同テストは、互いに競合するのではなく、力を組み合わせるため、非常に強力です。また、変数を削除したい場合、データはどの変数を削除するかを伝えることができません。
フランクハレル

17

変数の選択に関するこれらの回答はすべて、変数の観測コストが0であることを前提としています。

そして、それは真実ではありません。

特定のモデルの変数の選択の問題には選択が含まれる場合と含まれない場合がありますが、将来の動作に対する影響には選択が含まれます。

どの大学のラインマンがNFLで最高の成績を収めるかを予測する問題について考えてみましょう。あなたはスカウトです。あなたは、NFLの現在のラインマンのどの資質が彼らの成功を最も予測するかを考慮しなければなりません。500個の数量を測定し、将来必要になる数量の選択タスクを開始します。

あなたは何をするべきか?500個すべてを保持する必要がありますか?いくつか(天文学的な兆候、生まれた曜日)を排除すべきですか?

これは重要な質問であり、学術的ではありません。データの観測にはコストがかかります。費用対効果のフレームワークでは、変数の値が低いため、一部の変数は将来観測する必要がないことが示唆されています。


4
+1:重要で興味深いポイント。また、モデルの目的を示していないため、質問が不完全であることも明らかになります。(コストは、説明理論を構築しようとする科学モデルにはあま​​り関係がありませんが、繰り返し使用することを目的とした予測モデルでは前面に出ます。)
whuber

6

変数を保持する理由は、少なくとも2つ考えられます。1)OTHER変数のパラメーターに影響します。2)小さいという事実自体が臨床的に興味深い

約1を確認するには、モデル内の変数がある場合とない場合のモデルから、各人の予測値を見ることができます。これら2つの値セットの散布図を作成することをお勧めします。大きな違いがない場合、それはこの理由に対する議論です

2の場合、可能な変数のリストにこの変数が含まれている理由を考えてください。理論に基づいていますか?他の研究では大きな効果サイズが見つかりましたか?


言うべき共線性はほとんどないため、この変数を削除しても、他の変数との違いはほとんどありません。それは、それが小さかった場合に臨床的に興味深いという点です。データは、少なくともこの段階では、ある変数が他の変数よりも重要であると期待する理由がない探索的調査から得られます。ただし、この変数には日内変動があります。そのため、一見、効果の大きさがこの変動と類似している場合、私にとっては臨床的にあまり重要ではないようです。
Pセラーズ

OK、それは削除の良い候補のように聞こえます。
ピーターフロム-モニカを回復

@P Sellaz-「データが探索的調査から得られた」場合、それは参加者が自分自身を選択したことを意味しますか?@Frank Harrellのコメントは考慮すべき点がありますが、サンプルが自己選択された場合、p値、信頼区間などの厳密な精度に対する懸念は意味がありません。
rolando2

あなたがそれらを使用していない場合にのみ意味がなくなると思います。
フランクハレル

@FrankHarrel-明確にしてください: "them" =?
rolando2

6

最近の最も一般的なアドバイスは、2つのモデルのAICを取得し、AICの低いモデルを使用することです。したがって、フルモデルの-20のAICがあり、最も弱い予測子を持たないモデルのAICが-20より大きい場合、フルモデルを保持します。一部の人は、差が3未満であれば、より単純な差を維持すると主張するかもしれません。AICが相互に3以内にある場合、BICを使用して「結び付け」を解除できるというアドバイスを好みます。

Rを使用している場合、AICを取得するコマンドは...ですAIC

ここには、90年代前半からのモデリングに関する教科書があり、重要でない予測子をすべて削除することを提案しています。しかし、これは本当に、予測子がモデルに追加またはモデルから減算する複雑性とは無関係にドロップすることを意味します。また、他の事柄が説明されていることを考慮して、勾配の大きさではなく、説明された変動性が重要であるANOVAについてのみです。AICの使用に関する最新のアドバイスでは、これらの要素を考慮しています。重要ではない場合でも、重要でない予測変数を含める必要があるのには、あらゆる種類の理由があります。たとえば、他の予測変数との相関の問題がある場合がありますが、それは比較的単純な予測変数である場合があります。最も簡単なアドバイスが必要な場合は、AICを使用し、BICを使用して同点を解消し、3の差を平等のウィンドウとして使用します。


R表現では小さい方が良いでしょう?
アーロン-復活モニカ

お返事をありがとうございます。2つのモデルのAICの違いはわずか2であることがわかりました。
P Sellaz

小さいモデルには、少し大きいAICとBICがありますAIC:大小AIC = -2 BIC:大小BIC- 7.8
Pセラズ

アーロン..おっと...低く、修正されました...-
ジョン

1
何かを明確にするために、この追加の用語は単なる共変量であり、共線性はほとんどありません。
Pセラーズ

4

このモデルを何に使用していますか?節約は重要な目標ですか?

状況によってはもっとpar約的なモデルが好まれますが、par約自体が良いことだとは思いません。節約的なモデルはより簡単に理解および伝達でき、節約は過剰適合を防ぐのに役立ちますが、多くの場合、これらの問題は大きな懸念ではないか、別の方法で対処できます。

逆方向からアプローチし、回帰式に追加の項を含めると、追加の項自体が重要ではなく、モデルの適合性があまり改善されない場合でも、いくつかの利点があります。は制御する重要な変数ですが、他の変数もそうです。もちろん、変数を除外する他の非常に重要な実質的な理由があります。たとえば、結果によって引き起こされる可能性があります。


3

あなたの言葉遣いから、それはあなたがその予測値が低いので、あなたが最後の予測子を落とす傾向があるかのように聞こえます。その予測変数の大幅な変更は、応答変数の大幅な変更を意味しません。その場合、予測子を含める/ドロップするためのこの基準が好きです。これは、AICまたはBICよりも実際的な現実に基づいており、この調査の対象者に説明しやすいものです。


はい、それはまさに私が意味したものです。
Pセラーズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.