LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか


30

LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか?

例えば私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。


2
短い答え-いいえ、ダミーのスケールを変更しないでください
アフィン

4
これに関連し
ジュリス

@julieth、どうもありがとう、それからいくつかの答えを見つけたら教えてください。
ラスロ

回答:


27

Tibshirani(よるVARIABLE選択にTHE COXモデル用のLASSO方法、医学統計、VOL。16、385から395(1997)文字通り正則化方法についての本を書いた)、あなたはダミーを標準化する必要があります。ただし、係数のわかりやすい解釈ができなくなります。そうしないと、変数は均等な場にありません。基本的に、連続変数を優先してスケールを傾けています(ほとんどの場合)。したがって、主な目標がモデルの選択である場合、これは重大なエラーです。しかし、解釈にもっと興味があるなら、おそらくこれは最良のアイデアではありません。

推奨事項は394ページにあります。

投げ縄法では、反則者の初期標準化が必要であるため、罰則スキームはすべての反作用者にとって公平です。カテゴリリグレッサの場合、リグレッサをダミー変数でコーディングし、ダミー変数を標準化します。しかし、審判が指摘したように、このスキームの連続変数とカテゴリー変数の間の相対的なスケーリングは、いくぶんarbitrary意的です。


3
Tibshiraniがダミーの標準化を提案している場所への正確な参照を提供してください。
seanv507 14年

@ seanv507 "...ダミー変数を使用してリグレッサをコーディングし、ダミー変数を標準化します。" 不正の説明は正しいと思います。一般的に、ダミーを含むすべての予測変数は、罰金が公平になるために同じ規模と分散を持っている必要があります。
ロバートキューブリック

1
@RobertKubrick同意しない。正則化の基本的な理由は、小さな変更が小さな影響を与えるはずだということです。したがって、理想的なケースは、すべての変数が従属変数に対して自然な物理的スケールを持ち、正規化しないことです。通常、正しいスケールがわからないため、正規化に頼ります。ただし、カテゴリ変数には、0または1の確率という自然なスケールがあります。ほとんどの場合、変数0は、0/1の間で反転する変数ほど重要ではないと主張します。代わりに、ジェフの答えは適切だと思われます。
seanv507

8

Andrew Gelmanのブログ投稿「回帰入力を標準化するときと、それらをそのままにするとき」も一見の価値があります。この部分は特に関連しています:

モデル内のさまざまな予測変数の係数を比較するために、標準化はうなずきます。(私はバイナリ入力を標準化しませんが、0/1としてコーディングし、2つの標準偏差で除算することで他のすべての数値入力を標準化し、0/1変数とほぼ同じスケールにします。)


1
そして、彼が「バイナリ入力を標準化しない」と言うとき、彼は変数のワンホットグループ、すなわち、カテゴリ変数のダミーを意味するようです?
SMCI

2
p1pp=0.50.25

x -> x / 2σ

考えられない、それはすべてここで説明されているようです:stat.columbia.edu/~gelman/research/unpublished/…-
アレックス

3

これはコメントですが、長すぎます。投げ縄(および友人)で最もよく使用されるソフトウェアの1つはR glmnetです。ヘルプページから?glmnet:によって印刷

standardize:モデルシーケンスを近似する前のx変数標準化の論理フラグ。係数は常に元のスケールで返されます。デフォルトは「standardize = TRUE」です。変数が既に同じユニットにある場合、標準化を望まないかもしれません。「family = "gaussian"」によるyの標準化については、以下の詳細をご覧ください。

バツ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.