だから私はRでロジスティック回帰モデルを使っています。統計はまだ初めてですが、回帰モデルについて少し理解できたように思いますが、それでも気になることがいくつかあります。
リンクされた画像を見ると、私が作成したサンプルモデルのRプリントの概要が表示されています。このモデルは、データセット内の電子メールがrefoundか(バイナリ変数される場合は、予測しようとしているisRefound
)とデータセットが密接に関連する2つの変数が含まれているisRefound
、すなわち、next24
およびnext7days
これらはまた、バイナリであり、メールが次にクリックされる場合は教えてくれ- 24時間/ログの現在のポイントから次の7日間。
高いp値は、この変数がモデル予測に与える影響がかなりランダムであることを示しているはずですよね?これに基づいて、これらの2つの変数が計算式から外されている場合、モデル予測の精度が10%未満に低下する理由がわかりません。これらの変数の重要度が非常に低い場合、それらをモデルから削除すると大きな影響があるのはなぜですか?
よろしくお願いします、リッキーフォックス
編集:
最初に私はnext24だけを削除しましたが、これはcoefがかなり小さいので影響が少ないはずです。予想通り、ほとんど変更されていません-そのための写真をアップロードしないでください。
next7daysを削除すると、モデルに大きな影響がありました:AIC 200kアップ、精度16%まで、再現率73%まで
isRefound ~ day + next24
他のすべての変数があり、省略した場合はどうなりますか?