ロジスティック回帰モデル変数のp値の意味


9

だから私はRでロジスティック回帰モデルを使っています。統計はまだ初めてですが、回帰モデルについて少し理解できたように思いますが、それでも気になることがいくつかあります。

リンクされた画像を見ると、私が作成したサンプルモデルのRプリントの概要が表示されています。このモデルは、データセット内の電子メールがrefoundか(バイナリ変数される場合は、予測しようとしているisRefound)とデータセットが密接に関連する2つの変数が含まれているisRefound、すなわち、next24およびnext7daysこれらはまた、バイナリであり、メールが次にクリックされる場合は教えてくれ- 24時間/ログの現在のポイントから次の7日間。

高いp値は、この変数がモデル予測に与える影響がかなりランダムであることを示しているはずですよね?これに基づいて、これらの2つの変数が計算式から外されている場合、モデル予測の精度が10%未満に低下する理由がわかりません。これらの変数の重要度が非常に低い場合、それらをモデルから削除すると大きな影響があるのはなぜですか?

よろしくお願いします、リッキーフォックス

ここに画像の説明を入力してください


編集:

最初に私はnext24だけを削除しましたが、これはcoefがかなり小さいので影響が少ないはずです。予想通り、ほとんど変更されていません-そのための写真をアップロードしないでください。

next7daysを削除すると、モデルに大きな影響がありました:AIC 200kアップ、精度16%まで、再現率73%まで

ここに画像の説明を入力してください


1
isRefound ~ day + next24他のすべての変数があり、省略した場合はどうなりますか?
smillig 2013

回答:


11

基本的に、多重共線性の問題が発生しているようです。これについては、このWebサイトまたはWikipediaから始めて、多くの資料を入手できます。

簡単に言うと、2つの予測子は結果に本当に関連しているように見えますが、おそらく相互に高度に相関しています(3つ以上の変数があっても、強い二変量相関なしに多重共線性の問題が発生する可能性があることに注意してください)。これは当然のことですが、24時間以内にクリックされたすべての電子メールは7日以内(定義上)にもクリックされており、ほとんどの電子メールはおそらくまったくクリックされていません(24時間ではなく7日ではありません)。

これがあなたが提示した出力で示す1つの方法は、関連する係数の信じられないほど大きな標準エラー/ CIを介してです(bigglmを使用していて、小さな係数でさえ非常に重要であることから判断すると、サンプルサイズは十分すぎるようです適切な見積もりを取得するため)。このタイプの問題を検出するために実行できるその他のこと:ペアワイズ相関を見て、(@ Nick Sabbeによって示唆されているように)疑わしい変数の1つだけを削除し、両方の変数の有意性を一緒にテストします。

より一般的には、高いp値がないではない効果が小さいか、ランダムであるが、係数が0と異なっているという証拠がないだけということも非常に大きくなる可能性があることを意味し、あなただけ知っている(いずれかのサンプル理由はありませんサイズが小さすぎるか、モデルに他の問題があるため)。


1
あなたが投稿した新しい出力は、他のいくつかの変数も含まれている可能性があることを示唆していることに注意してください(または、私が見なかった別の問題があります)。 。
ガラ

うん、もう気づいたけど、ありがとう。私はあなたが興味を持っている場合は、これを引き起こしているかもしれないものを知っているように、後の時点で編集をやる
deemel
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.