後方消去を行う場合、複数レベルのカテゴリ変数をどのように処理する必要がありますか?


12

私は、いくつかの変数が複数のレベルを持つカテゴリー変数である、単純なAICベースの後方消去モデルを実行しています。これらの変数は、ダミー変数のセットとしてモデル化されます。後方消去を行うとき、変数のすべてのレベルを一緒に削除する必要がありますか?または、各ダミー変数を個別に処理する必要がありますか?なぜ?

関連する質問として、Rのステップは、後方削除を行うときに各ダミー変数を個別に処理します。カテゴリ変数全体を一度に削除したい場合、stepを使用して削除できますか?それともこれを処理できるステップの代わりはありますか?


一般的にこの質問に答えるのは難しいと思います。可能であれば、あなたのデータは何かについていくつかの洞察を提供できますか?何を推測したいですか?これらの詳細を提供することで、質問への回答が改善される可能性があります。
suncoolsu

@suncoolsu私はそれについて議論する自由は本当にありません。決定木で質問に答えることができる場合(「Xを想定している場合はYを実行する」)、それは非常に役立ちます。
11年

1
明確にするために、モデルを因果関係として解釈することに関心がありますか、それとも単に予測に関心がありますか?
Andy W

はい。私はマット・パーカーに同意します。さらに、catデータ列に5つのエントリ(1、2、3、4、5など)がある場合、GLMモデルは、4つの列(catCol1、catCol2、catCol3、catCol4など)を提供し、catColを省略した場合データが常にcatCol4の値を持つことができるため、最高のp値(catCol4など)を使用すると、残りの3つはあまり意味がありません。そのような状況では、GLMは混乱し、エラーを表示します
。–エビー

回答:


7

カテゴリ変数全体を削除する必要があると思います。人が病気にかかっているかどうかを予測しようとするロジスティック回帰を想像してみてください。出生国がそれに大きな影響を与える可能性があるため、モデルに含めます。特定のUSAmerican出身地がAICに影響を及ぼさなかったためにそれを落とした場合、アメリカ人のをどのように計算しますか?Rはデフォルトで因子の参照コントラストを使用するので、たとえあったとしても、それらは参照レベル(たとえば、ボツワナ)で計算されるだけだと思います。それはおそらくうまくいかないでしょう...y^

より良いオプションは、出生国の適切なエンコーディングを事前に分類することです-地域、大陸などに折りたたみ、どれがモデルに最も適しているかを見つけます。

もちろん、段階的な変数選択を誤用する方法はたくさんありますので、適切に行っていることを確認してください。しかし、このサイトにはそれについてたくさんあります。「段階的」を検索すると、いくつかの良い結果が表示されます。 これは特に適切で、答えにはたくさんの良いアドバイスがあります。


1
ご回答ありがとうございます。私の懸念は、あなたの例では、ある国の出生国が病気の素晴らしい予測因子であり、他のすべての出身国の予測因子が貧弱である場合、後方相殺モデルは出生国を削除するように私に指示することですただし、出生国は共変量としてほとんど役に立ちません。言い換えれば、「あなたはリトアニア人ですか?」の単一の変数を持つことは理にかなっています。出生国全体がうまく予測できないとしても。この種の問題を処理するための賢明な方法はありますか?
11年

2
(+1)1つの国が優れた予測因子である場合、国のグループ全体が重要であり、保持されます。@Matt Parkerは正解です。ダミー変数のグループをまとめて保持し、個々のダミーの有意水準ではなく、グループ全体の共同有意水準に基づいて開始および終了基準を設定します。
whuber

2
@whuber OK私からもう1つの潜在的に馬鹿げたコメント、そして私が間違っている理由を理解したら私は平和になります:-P AICを見ていて、たとえば200の国のダミーを除外すると、新しいモデルでは変数が200少なくなるため、グループとして、AICは改善されます。また、これらのダミーが優れた予測変数であった場合にのみ悪化します。変数の1つだけが良い予測因子であった場合、ネット上ではAICにより変数が200個少ないモデルの方が見栄えがよくなるように見えますが、その1つの変数を
見逃してしまい

4
@nerdboundそれはまったく馬鹿ではありません。ただし、200のうち1つのダミーのみが適切に機能する場合は、実際には別のカテゴリ変数があります。これは、新しいバイナリ(または再分類)変数です。@マットパーカーは彼の2番目の段落でこの問題に対処しています。これは、探索的分析の問題のように見えます(とにかく段階的な回帰です)。この方法でデータを拷問することはまったく問題ありませんが、すべての煙が消えた後、独立したデータでモデルをテストする必要があります。
whuber

1
:非常に多くのレベルがある場合に該当するかもしれないstats.stackexchange.com/questions/146907/...
HalvorsenのはKjetil B

0

国の例について言えば、特定の国のダミー変数が選択されている場合、それはこの国が他の国すべてと比較して予測変数であることを意味します(新しいバイナリ変数を作成する必要はありません)。私がよく持っている問題は、たとえば、疾患の重症度(-、+、++、+++など)を反映するダミー変数です。++のダミー変数が選択されても、+++のダミー変数が選択されない場合があります。この場合、再分類が役立つことがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.