ロジスティック回帰をフィッティングする前に標準化が必要ですか？

私の質問は、ロジスティック回帰を当てはめる前に、すべての変数が[0,1]の間で同じスケールを持っていることを確認するためにデータセットを標準化する必要があるかどうかです。式は次のとおりです。

\frac{x_{i} - min (x_{i})}{max (x_{i}) - min (x_{i})}

$\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)}$

私のデータセットには2つの変数があり、2つのチャネルについて同じことを記述していますが、ボリュームは異なります。これは、2つの店舗での顧客の訪問数です。ここで、顧客が購入するかどうかを示します。顧客は両方の店、または最初の店を2回、2番目の店を1回訪れてから購入できます。しかし、1店舗目の顧客の合計訪問数は2店舗目の10倍です。標準化せずにこのロジスティック回帰に適合すると coef(store1)=37, coef(store2)=13、私はその後、データを標準化する場合coef(store1)=133, coef(store2)=11。このようなもの。どのアプローチがより理にかなっていますか？

決定木モデルをフィッティングしている場合はどうなりますか？モデル自体が何らかの形でモデルを調整するため、ツリー構造モデルは標準化を必要としません。しかし、すべての人に確認してください。

regression logistic standardization

— user1946504
ソース

回帰が正規化されていない限り、標準化する必要はありません。ただし、解釈の助けになることもあり、めったに痛いことはありません。

— アレックス

を標準化する通常の方法ではありません

\frac{x_{i} - \bar{x}}{s d (x)}

$\frac{x_i-\bar{x}}{sd(x)}$ か？

— ピーターフロム-モニカの復職

@Peter、それは私が以前考えていたことですが、私は記事benetzkorn.com/2011/11/data-normalization-and-standardization/… > を見つけました、それは正規化と標準化が異なることのようです。1つは平均0分散1にすることで、もう1つは各変数を再スケーリングすることです。それは私が混乱するところです。お返事をありがとうございます。

— user1946504

私にとって標準化は解釈をはるかに困難にします。

— フランクハレル

@alexの発言を明確にするために、データのスケーリングは最適な正則化係数のC変更を意味します。そのためC、データを標準化した後に選択する必要があります。

— akxlr

回答:

ロジスティック回帰には標準化は必要ありません。機能を標準化する主な目的は、最適化に使用される手法の収束を支援することです。たとえば、Newton-Raphsonを使用して尤度を最大化する場合、機能を標準化すると収束が速くなります。それ以外の場合は、機能の標準化処理なしでロジスティック回帰を実行できます。

— アイメン
ソース

お返事をありがとうございます。それは標準化が望ましいということですか？モデルを確実に収束させ、数百万の変数がある場合、必要に応じて変数を1つずつ調整するよりも、モデリングパイプラインで標準化のロジックを実装する方が簡単です。私は正しく理解していますか？

— user1946504 14

それは分析の目的に依存します。最新のソフトウェアは、標準化せずに非常に極端なデータを処理できます。各変数（年、ユーロ、kgなど）に自然な単位がある場合は、標準化をためらいますが、より適切な場合はいつでも単位をkgからたとえばトンまたはグラムに変更できます。

— マールテンビュイ14年

@Aymenは正しいです。ロジスティック回帰のためにデータを正規化する必要はありません。（より一般的な情報については、このCVスレッドを読み通すと役立つ場合があります：データをいつ中央に配置し、いつ標準化する必要がありますか？また、変換はより一般的に「正規化」と呼ばれることに注意してください：を確認する方法分布は正規化されていますか？）質問内の他のいくつかのポイントに対処しましょう。

ここで、ロジスティック回帰では、係数が「成功」の対数オッズに対する予測変数の1単位の変化の影響を示すことに注意する価値があります。（標準化や正規化などによって）変数を変換する効果は、モデルのコンテキストで「ユニット」と呼んでいるものを変更することです。生のデータは、元のメトリックのいくつかのユニットで変化しました。あなたが正規化された後、あなたのデータがあったからまで。つまり、1単位の変更とは、現在、最低値の観測値から最高値の観測値への変更を意味します。成功の対数オッズの増加量は変更されていません。これらの事実から、最初の変数（）はまたがっていると思われます $x$ $0$ $1$ store1 $133/37\approx 3.6$ 元のユニット、および2番目の変数（store2）は元のユニットのみにまたがっていました。 $11/13\approx 0.85$

— gung-モニカの回復
ソース

LASSOでロジスティック回帰を使用する場合、または（Weka Logisticクラスが行うように）リッジ回帰を使用する必要があります。Hastie、Tibshiraniとフリードマンポイントアウト（PDFの82ページまたはブックの63ページで）：

リッジ解は、入力のスケーリングの下で等変ではないため、通常、解く前に入力を標準化します。

また、このスレッドはありません。

— エラクル
ソース