なぜロジスティック回帰でカテゴリー予測子のWOE変換を行う必要があるのですか?


10

カテゴリー変数の証拠の重み(WOE)変換はいつ役立つのですか?

この例は、WOE変換で見ることができます。

(したがって、応答のために、&とカテゴリ予測k個のカテゴリ、および Y j個のうち成功N j個の内の試験Jこの予測の範疇番目用WOE Jカテゴリ番目は次のように定義されますykyjnjjj

logyjjkyjjk(njyj)njyj

&変換は、カテゴリー予測子の各カテゴリーをそのWOEでコーディングして、新しい連続予測子を形成することで構成されます。)

WOE変換がロジスティック回帰に役立つ理由を知りたいのですが。この背後にある理論は何ですか?

回答:


6

リンク先の例では、カテゴリカル予測子は、各レベルの応答の観測された対数オッズ(プラス定数)に等しい各レベルの値を取る単一の連続変数によって表されます。

logyjnjyj+logjk(njyj)jkyj

この難読化は、私が考えることのできる目的にはまったく役立ちません。通常のダミーコーディングを使用した場合と同じ予測応答が得られます。しかし、自由度が間違っているため、モデルに関するいくつかの有用な推論形式が無効になっています。

変換するいくつかのカテゴリカル予測子を使用した重回帰では、限界ログオッズを使用してそれぞれのWOEを計算するとします。これにより、予測される応答が変わります。ただし、交絡は考慮されていないため、条件付き対数オッズは限界対数オッズの線形関数ではありません。それが改善であると推測する理由は見当たらず、推論上の問題は残っています。


WOEで自由度が間違っている理由を説明できますか?ただの変革ですね。また、いくつかのカテゴリー変数があり、それぞれについてWOEを1つずつ取得した場合はどうなりますか?多くのカテゴリー変数があるときの私の経験では、異なる変数間のいくつかのバケットが大きく重なり、重要ではないいくつかの係数が表示され始めます。また、いくつかの係数を持ち歩く必要があります。
アダム

1
(1)予測子と応答の関係の評価に依存する変換-回帰に任されるべきもの。したがって、たとえば、尤度比検定統計は、変換が事前に指定されている場合と同じ分布にはなりません。(2)いい点!-WOEの重回帰は、ダミー変数の重回帰と同等ではありません(モデルが飽和していない場合)。(3)それで何?(4)係数はWOEよりも重いわけではありません。
Scortchi-モニカを回復

1

エビデンスの重みの測定(WoE)を使用した粗分類には、次の利点があります。WoEは、ロジスティック回帰の従属変数であるオッズ比の自然対数との線形関係を表示します。
したがって、変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定の問題は発生しません。

ln(p/1p)αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

出典:PPTの1つで、会社のトレーニング中にトレーナーが私に見せてくれました。


1
「変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定は発生しません」。これを数学的に説明/証明できますか?
アダム

私は、リスク分析の背景が、PGこの本の131132がそう言っているようだからじゃないbooks.google.co.in/...
スリカンスGuhan

また、このリンクはありません数学しかし同じことが説明されていると主張analyticbridge.com/forum/topics/...
スリカンスGuhan

リンクに感謝しますが、WoEが比例する限界ログオッズが、ロジスティック回帰が関係する条件付きログオッズと線形関係があることは明らかに正しくありません。他の予測子と交絡すると、WoEの順序付けカテゴリが異なる場合もあります。
Scortchi-モニカを回復

1

WOE変換は、組み合わせる必要のある数値データとカテゴリデータの両方があり、情報を抽出したいすべての値が欠落している場合に役立ちます。すべてをWOEに変換すると、多くの異なるタイプのデータ(欠落データも含む)を同じログオッズスケールに「標準化」するのに役立ちます。このブログ投稿では、事柄について合理的に説明しています:http : //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

話の要旨は、WOEを使用したロジスティック回帰は、Semi-Naive Bayesian Classifier(SNBC)と呼ばれるべきである(そして呼ばれている)ことです。アルゴリズムを理解しようとしている場合、SNBCという名前は、私にとってはるかに有益です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.