ロジスティック回帰で異なる分布の予測子変数をどのように処理しますか?


8

x1とx2を指定してyを予測するためにロジスティック回帰を使用しています。

z = B0 + B1 * x1 + B2 * x2
y = e^z / (e^z + 1)

ロジスティック回帰は、変数のスケールが大きく異なる場合にどのように処理されるはずですか?変数の高次係数を使用してロジスティック回帰モデルを構築することはありますか?私はこのようなものを想像しています(2つの変数について):

z = B0 + B1 * x1 + B2 * x1^2 + B3 * x2 + B4 * x2^2

または、ロジスティック回帰を使用する前に、x1とx2の値を単純に正規化、標準化、または再スケーリングする正しい答えは何ですか?

回答:


6

もちろん、パラメータを正規化することもできます。これにより、学習アルゴリズムの速度も向上します。

アルゴリズムの実行の最後に同等のを得るには、各特徴、その平均とその範囲ます。次に、各値、つまりレコード機能の値を次のように変更します。 これで、値は間隔[- 1,1]なので、をより自信を持って比較できるため、オッズ比を比較できます。これにより、最適なセットを見つける時間が短縮されますβxiμiri=maximinir[xi]xir

r[xi]μiri
r[xi]ββ勾配降下法を使用している場合。新しいレコードクラスを予測する場合は、機能を正規化することを忘れないでください。r

より高次の機能を追加することもできますが、これは過剰適合につながります。通常、パラメータを追加する場合は、正規化を追加する方が適切である限り、大きさを小さくすることで過剰適合を回避しようとします。これは、この項をロジスティック回帰コスト関数 に追加して得られ ます。ここで、は正則化の力を調整します。β

λi=0nβi2
λ

ここで、機械学習に関するスタンフォード大学のクラスをご覧になることをお勧めします。http//www.ml-class.org/course/video/preview_list、ユニット6および7。


明確にするために、新しいレコードr 'を正規化するとは、元のデータから派生した古いとを使用することです。ありがとうmuiri
FMZ

はい、そうです。新しいレコードの値を正規化するには、トレーニングセットで計算されたとを使用する必要があります。また、ではなく、機能標準偏差を使用することもできます。μirixiri
Simone、

6

@Simoneはいくつかの優れた点を示しているので、補足のヒントをいくつか投入します。正規化は速度などに役立ちますが、ロジスティック回帰は予測変数の分布についての仮定を行いません。したがって、正規化する必要はありません。第2に、2乗項を追加すると過剰適合につながる可能性があります(そのため注意が必要です)ことは許容されます。つまり、予測の範囲の中央では、極端な場合よりも成功の​​可能性が高くなります(またはその逆)。


4

理論的には、入力のスケールはロジスティック回帰とは無関係です。「理論的に」にをすると、の推定値がそれに応じて調整されます。それはなり倍よりも小さい MLEはの不変性に起因します。X110101010β110101010β1

しかし、Rに上記の調整された回帰を実行させてみてください-それはおかしくなります(X行列を構築することさえできません)。

これは、行列の平方根を計算するためのコレスキー分解アルゴリズムに少し似ています。はい、正確な数学では、コレスキー分解は負の数の平方根を取ることは決してありませんが、エラーを四捨五入し、浮動小数点演算はそのような場合につながる可能性があります。

X変数の任意の線形結合を使用でき、予測値は同じになります。

@simoneのアドバイスに従い、モデルのフィッティングに再スケーリングされたX変数使用する場合。しかし、数値的に安定した入力X変数を使用した後、MLEの不変性プロパティを使用して必要なベータを取得できます。元のスケールのベータ版は、@ simoneの変換されたベータ版よりも解釈が容易な場合があります。したがって、変換された(番目の変数の番目の観測)が得られます。これをと呼び、次のように定義します。xijijx~ij

x~ij=ajxij+bj

@simoneの選択は、および(を使用して番目の変数の番目の統計、つまり)。とアルゴリズムパラメータ(アルゴリズムをより安定にかつ/またはより高速に実行するために選ばれた)と考えることができます。次に、を使用してロジスティック回帰を当てはめ、パラメーター推定を取得します。したがって、線形予測子を書き出します。aj=1x[N]jx[1]jbj=x¯jx[N]jx[1]jx[i]jijx[N]jx[N1]jx[1]jajbjx~ijβ~j

zi=β~0+jx~ijβ~j

ここで、の式を代入すると、次のようになります。x~ij

zi=β~0+j(ajxij+bj)β~j=β0+jxijβj
場所
β0=β~0+jbjβ~jβj=ajβ~j

理論的には、パラメーターはまったく違いをないことがわかります。線形予測子が変更されていないため、()選択は同じ可能性につながります。X行列を主成分(回転を含む)で表すなど、より複雑な線形変換でも機能します。そのため、結果を逆変換して、解釈に必要なベータを取得できます。aj,bjaj=0


素晴らしい理論的証明。正規化がなければ、オッズ比は実際に意味があります。ただし、開業医はこれらのオッズ比を使用してその特徴の重要度を評価する場合があります。特徴は重要であるが、大きな範囲で変動し、したがって低いオッズ比を持つ可能性があるため、誤解を招くことがあります。正規化を使用すると、実際的な意味を失っても、すぐに比較できます。もちろん、機能の重要性を評価するために統計的検定を行わなければなりません。
Simone
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.