いくつかのカテゴリ変数予測子といくつかの連続予測子を持つLASSOを実行しています。カテゴリ変数について質問があります。私が理解する最初のステップは、それぞれをダミーに分割し、公正な罰則のために標準化してから退行することです。ダミー変数の処理には、いくつかのオプションがあります。
各要因のダミーのうち1つを除くすべてを含め、その1つを参照レベルとして残します。ダミー係数の解釈は、除外された「参照」カテゴリに関連しています。インターセプトは、参照カテゴリの平均応答です。
各要因の変数をグループ化して、それらがすべて除外されるか、すべてが1つだけ含まれるようにします。私はそれが@Glen_bがここで提案していることだと信じています:
通常、はい、あなたはあなたの要因をすべて一緒に保ちます。glmnetなど、これを行うことができるいくつかのRパッケージがあります。
ここで @Andrew Mが示唆するように、すべてのレベルを含めます。
デフォルトのコントラスト関数を変更することもできます。デフォルトでは、各因子の1レベルが除外されます(治療のコーディング)。しかし、投げ縄のペナルティのため、これは識別可能性のためにもはや必要ではなく、実際、選択された変数の解釈をより複雑にします。これを行うには、設定します
contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
現在、因子のどのレベルが選択されている場合でも、これらの特定のレベルが重要であり、省略されたすべてのレベルではないことを示唆していると考えることができます。機械学習では、ワンコーディングと呼ばれるこのコーディングを見てきました。
質問:
- これらの各アプローチでの切片と係数の解釈は何ですか?
- それらの1つを選択する際の考慮事項は何ですか?
- ダミー係数のスケールを解除してから、オフからオンへの変化として解釈しますか?