重要でない変数をいつ削除するのですか？

9

私はロジスティック回帰モデルに取り組んでいます。P値が0.74で有意ではない5つの独立変数で構築されたモデルの概要をチェックしました。変数を直接削除するか、それとも有意性をチェックする他の方法があるかを知りたいです？

私の先輩は、無意味な変数の対数変換を行い、相関関係を探すよう提案しました。それはその重要性のチェックにカウントされますか？

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

重要度が低いと表示されているa_scoreを除いて、すべての変数は2つまたは3つの星で重要であることがわかります。

r regression correlation

モデル構築演習の目標は何ですか？学術論文などの推論統計、または予測に興味がありますか？

— ステファンコラサ

40

最初にこれを聞いてみましょう：モデルの目標は何ですか？顧客が購入するかどうかを予測することにのみ関心がある場合は、統計仮説検定は主な関心事ではありません。代わりに、目に見えないデータの検証/テスト手順を介してモデルを外部で検証する必要があります。

代わりに、顧客が購入する確率に寄与する要因を調べることに関心がある場合は、nullを拒否できない変数を削除する必要はありません（特に段階的な方法で）。おそらく、モデルに変数を含めたのは、（過去の経験または専門家の意見から）顧客が購入するかどうかを決定する際に重要な役割を果たすと考えたためです。変数がnullを拒否できなかったとしても、モデルが悪いものになるわけではなく、サンプルがその変数の影響を検出しなかったことを意味します。それは完全に大丈夫です。

— デメトリパナノス
ソース

3

答えの優秀さに賛成。

— James Phillips

7

+1結果に潜在的に関連する予測子を削除することは（たとえ「重要でない」としても）、固有の省略された変数のバイアスを考えると、ロジスティック回帰ではトリッキーです。結果に関連する予測子を削除すると、保持された予測子が削除された予測子と相関していない場合でも、保持された予測子の係数の推定に偏りが生じる可能性があります。

— EdM

3

これは確かに非常に明確な答えです。

— gented

2

以下のためのヘルプページを見ているstep()、drop1()とadd1()。これらは、AICに基づいて変数を追加/削除するのに役立ちます。ただし、そのようなメソッドはすべて、パス依存性に多少の欠陥があります。より良い方法は、ペナルティ付きパッケージまたはglmnetパッケージの関数を使用して、投げ縄回帰を実行することです。

-1

独立変数間の相関関係は何ですか？これは純粋な予測にはそれほど重要ではありませんが、推論情報を取得したい場合は、独立変数がかなり無相関であることが重要です。通常、ビジネス環境でロジスティック回帰を使用する場合、使用される変数に関する推論情報と適切な予測の両方が、利害関係者が探しているものです。

さらに、変数を削除するもう1つの理由は、モデルの節約です。これのいくつかの理由は、内部レビューの目的、法的規制、および実装の容易さのためです。これらは、優れたビジネス情報と優れた予測を提供する変数の最小セットを見つけることが非常に望ましいことにつながります。たとえば、信用モデルを開発している場合、すべての変数が法的審査の対象となり、すべての変数が利用可能であり、ローンをスコアリングするために呼び出されたときにすぐに値を返す必要があり、利害関係者（通常、モデル構築に精通していない）は傾向があります変数がロードされた複雑なモデルを見たくない。

ランダムフォレストを試して、変数の重要度についてのアイデアを得て、すべての変数を使用した場合と使用しない場合の予測力を確認することも役立ちます。

最後に、変数を変換する正当な理由があるはずです。目的の結果が得られる変換が見つかるまで、変数に対するすべての変換をスローすることは、新しいデータに対してパフォーマンスが低いオーバーフィットモデルを取得するための良い方法です。

— eps
ソース