特定の例で問題を修正したように見えますが、最小二乗と最尤ロジスティック回帰の違いをより慎重に研究する価値があると思います。
表記を取得しましょう。してみましょうと。最大尤度(または、ここで行っているように最小の負の対数尤度)を実行している場合、
と私達のリンク機能であります。LS(y私、y^私)= 12(y私− y^私)2LL(y私、y^私)= y私ログy^私+ (1 − y私)ログ(1 − y^私)β L:= argmin Bを∈ R p − n ∑ i = 1 y i
β^L:= argminB ∈ Rp− ∑i = 1ny私ログg− 1(xT私b )+ (1 − y私)ログ(1 − g− 1(xT私b ))
g
あるいは、
最小二乗解として。したがって、を最小化し、についても同様です。
β^S:= argminB ∈ Rp12∑i = 1n(y私− g− 1(xT私b ))2
β SLSLLβ^SLSLL
ましょうと最小化に対応する目的関数もとように行われ、それぞれと。最後に、、ます。正規リンクを使用している場合、が得られることに注意してください
fSfLLSLLβ S β L H = G - 1 、Y I = H (X T I B )H (Z )= 1β^Sβ^Lh = g− 1y^私= h (xT私b )
h (z)= 11 + e− z⟹h′(z)=h(z)(1−h(z)).
通常のロジスティック回帰では、
使用した、我々はこれを簡略化することができる
したがって
∂fL∂bj= − ∑i = 1nh′(xT私b )x私はj(y私h (xT私b )− 1 − y私1−h(xTib)).
h′=h⋅(1−h)∂fL∂bj=−∑i=1nxij(yi(1−y^i)−(1−yi)y^i)=−∑i=1nxij(yi−y^i)
∇fL(b)=−XT(Y−Y^).
次に、二次導関数をやってみましょう。ヘッシアン
HL:=∂2fL∂bj∂bk=∑i=1nxijxiky^i(1−y^i).
HL=XTAXA=DIAG( Y(1 - Y))HL Y YHLB
つまり、で、です。は現在の近似値依存しますが、はドロップアウトし、はPSDです。したがって、最適化の問題はで凸です。
HL=XTAXA=diag(Y^(1−Y^))HLY^YHLb
これを最小二乗と比較しましょう。
∂fS∂bj=−∑i=1n(yi−y^i)h′(xTib)xij.
これは、があることを意味し
これは重要なポイントです。勾配はすべてのを除いてほぼ同じであるため、基本的に基準にして勾配を平坦化します。これにより、収束が遅くなります。
∇fS(b)=−XTA(Y−Y^).
i y^i(1−y^i)∈(0,1)∇fL
ヘッセ行列の場合、最初に
∂fS∂bj=−∑i=1nxij(yi−y^i)y^i(1−y^i)=−∑i=1nxij(yiy^i−(1+yi)y^2i+y^3i).
これにより、
HS:=∂2fS∂bj∂bk=−∑i=1nxijxikh′(xTib)(yi−2(1+yi)y^i+3y^2i).
LET。現在、
B = diag (y私− 2 (1 + y私)y^私+ 3 、Y^2私)
HS= − XTA B X。
残念ながら、の重みは負でないことが保証されていません場合、場合は正です。同様に、場合、これは、(に対しても正ですが、それは不可能です)。これは、が必ずしもPSDではないことを意味します。したがって、学習を難しくする勾配をつぶすだけでなく、問題の凸性を台無しにしました。By私= 0y私− 2 (1 + y私)y^私+ 3 、Y^2私= y^私(3 Y^私− 2 )y^私> 23y私= 1y私− 2 (1 + y私)y^私+ 3 、Y^2私= 1 − 4 y^私+ 3 、Y^2私y^私< 13y^私> 1HS
全体として、最小二乗ロジスティック回帰が時々苦労することは驚くことではありません。あなたの例では、が非常に小さいため、または近い十分な近似値があります。勾配はかなり平坦化されています。01y^私(1 − y^私)
これはニューラルネットワークに接続しますが、これは控えめなロジスティック回帰ですが、二乗損失では、Goodfellow、Bengio、およびCourvilleがDeep Learning本で次のように言及しているようなものを経験していると思います:
ニューラルネットワーク設計全体で繰り返されるテーマの1つは、コスト関数の勾配が大きく、学習アルゴリズムの適切なガイドとして十分に予測可能でなければならないということです。飽和する(非常に平坦になる)関数は、勾配を非常に小さくするため、この目的を弱めます。多くの場合、これは非表示ユニットの出力を生成するために使用されるアクティベーション関数または出力ユニットが飽和するために発生します。負の対数尤度は、多くのモデルでこの問題を回避するのに役立ちます。多くの出力ユニットには、引数が非常に負の場合に飽和するexp関数が含まれます。負の対数尤度コスト関数のログ関数は、一部の出力単位のexpを取り消します。コスト関数と出力単位の選択との相互作用については、セクションで説明します。6.2.2。
また、6.2.2では、
残念ながら、勾配ベースの最適化と併用した場合、平均二乗誤差と平均絶対誤差は多くの場合、悪い結果をもたらします。飽和する出力ユニットの中には、これらのコスト関数と組み合わせると非常に小さな勾配を生成するものがあります。これは、分布全体を推定する必要がない場合でも、クロスエントロピーコスト関数が平均二乗誤差または平均絶対誤差よりも一般的である理由の1つです。p (y| x)
(両方の抜粋は第6章からです)。