GLMの対数尤度は、グローバルな最大値への収束を保証していますか?


16

私の質問は:

  1. 一般化線形モデル(GLM)は、グローバルな最大値に収束することが保証されていますか?もしそうなら、なぜですか?
  2. さらに、凸性を保証するためのリンク関数にはどのような制約がありますか?

GLMについての私の理解は、それらが高度に非線形な尤度関数を最大化するということです。したがって、いくつかの極大値があり、収束するパラメーターセットは最適化アルゴリズムの初期条件に依存すると想像します。しかし、いくつかの研究を行った後、複数の局所的最大値があることを示す単一の情報源は見つかりませんでした。さらに、私は最適化手法にあまり精通していませんが、ニュートンラプソン法とIRLSアルゴリズムは極大になりやすいことを知っています。

可能であれば、直感的かつ数学的に説明してください!

編集:dksahujiは私の元の質問に答えましたが、上記の追加の質問[ 2 ] を追加したいと思います。(「凸性を保証するためのリンク関数にはどのような制約がありますか?」)


そうする前に、いくつかの制限が必要だと思います。ステートメントのソースは何ですか?
Glen_b -Reinstateモニカ

いくつかのサイトはそれを暗示しているように見えましたが、私はそれを完全に言及したものを見つけることができなかったので、その反論も歓迎します!
DankMasterDan

可能性がドメインのあらゆる場所で明確に定義されている限り(および、いくつかの接線上の数値の問題を無視する限り)、そうだと思います。これらの条件下では、ヘッシアンはドメインのどこでも<0であるため、尤度はグローバルに凹になります。ところで、この関数はパラメーター内で「高度に非線形」ではなく、それが重要です。
user603 14

@ user603ヘシアンがどこでも<0であることのソース/証明は何ですか?
DankMasterDan 14

ロジスティック、ポアソン、およびガウス回帰は、「適切な」リンク関数が与えられると、多くの場合凸です。ただし、任意のリンク関数では、凸状ではありません。
Memming

回答:


11

指数族の定義は次のとおりです。

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

ここで、は対数パーティション関数です。次の3つのことが1Dの場合に当てはまることを証明できるようになりました(そして、それらはより高い次元に一般化されます-指数ファミリーまたはログパーティションのプロパティを調べることができます):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

θT[ϕ(D)]A(θ)

曲線指数族と呼ばれる一般的なバージョンもありますが、これも同様です。ただし、ほとんどの証明は標準形式です。


これは、GLMがリンク関数が選択される一意のグローバルな最小の名目を持つことを意味します(非標準的なものを含む)?
DankMasterDan 14

1
p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ))) is the case you are talking about. This still is concave in η but may not be in θ so η should be such that the whole log likelihood is concave in θ.
dksahuji

Note that the question asks about convergence, rather than just existence, but with a few restrictions, that, too, may be doable.
Glen_b -Reinstate Monica

@Glen_b Can you elaborate? I dont know any such restrictions. Maybe something like restrictions on stepsize in a gradient based optimizer to gaurantee convergence in case of concave function.
dksahuji

1
@Glen_b That might be true in general but I am not able to see any reason for concave function to not converge to optima within small tolerable value. But I would say that I dont have any practical experience with these and I have just started. :)
dksahuji
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.