回答:
リンク先の例では、カテゴリカル予測子は、各レベルの応答の観測された対数オッズ(プラス定数)に等しい各レベルの値を取る単一の連続変数によって表されます。
この難読化は、私が考えることのできる目的にはまったく役立ちません。通常のダミーコーディングを使用した場合と同じ予測応答が得られます。しかし、自由度が間違っているため、モデルに関するいくつかの有用な推論形式が無効になっています。
変換するいくつかのカテゴリカル予測子を使用した重回帰では、限界ログオッズを使用してそれぞれのWOEを計算するとします。これにより、予測される応答が変わります。ただし、交絡は考慮されていないため、条件付き対数オッズは限界対数オッズの線形関数ではありません。それが改善であると推測する理由は見当たらず、推論上の問題は残っています。
エビデンスの重みの測定(WoE)を使用した粗分類には、次の利点があります。WoEは、ロジスティック回帰の従属変数であるオッズ比の自然対数との線形関係を表示します。
したがって、変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定の問題は発生しません。
出典:PPTの1つで、会社のトレーニング中にトレーナーが私に見せてくれました。
WOE変換は、組み合わせる必要のある数値データとカテゴリデータの両方があり、情報を抽出したいすべての値が欠落している場合に役立ちます。すべてをWOEに変換すると、多くの異なるタイプのデータ(欠落データも含む)を同じログオッズスケールに「標準化」するのに役立ちます。このブログ投稿では、事柄について合理的に説明しています:http : //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
話の要旨は、WOEを使用したロジスティック回帰は、Semi-Naive Bayesian Classifier(SNBC)と呼ばれるべきである(そして呼ばれている)ことです。アルゴリズムを理解しようとしている場合、SNBCという名前は、私にとってはるかに有益です。