CRFモデルとロジスティックモデルが凸関数であることの証明


8

CRFベースのモデルとロジスティック回帰ベースのモデルが凸型であることの良い証拠はどこにありますか?モデルまたは目的関数が凸であることをテスト/証明するための一般的なトリックはありますか?

回答:


7

1つのトリックは、凸関数として知られている関数の観点から目的関数を書き換えることです。

MLでトレーニングされた対数線形モデルの目的関数は負の対数尤度の合計であるため、各データポイントの負の対数尤度が凸であることを示すだけで十分です。

固定されたデータポイントを考えると、負の対数尤度項を次のように書くことができます

θ,ϕ(y)+logyexp(θ,ϕ(y))

最初の項は線形であるため、対数正規化子として知られる2番目の項が凸であることを示すだけで十分です。

として書きます。ここで、および。ここで、は線形関数、はlog-sum-expと呼ばれる既知の凸関数です。ボイドの凸最適化のの72ページを参照してください。凸関数と線形関数の合成は凸です。セクション3.2.2を参照してください。f(g(θ))f(y)=logyexpygy(θ)=θ,ϕ(y)gf

別のアプローチは、対数正規化関数がキュムラント生成関数であるという事実を使用することです。たとえば、ボイドの本の例3.41、またはウェインライトの「グラフィカルモデル、指数ファミリー、変分推論」原稿の命題3.1を参照してください。これは、2次導関数が十分な統計量の共分散行列であることを意味します。これは、定義により正の半定値です。つまり、対数正規化器のヘッセ行列は正の半定値です。正の半定値ヘッセ行列は、関数が凸であることを保証します。ボイドの本のセクション3.1.4を参照してください。ϕ

技術的には、対数正規化関数は、従来のキュムラント生成関数ではありません。CGFはです。ただし、評価される対数正規化関数の導関数は、で評価されるCGFの導関数と同じであるため、CGF と同様にキュムラントを生成します。g(ϕ)=log(Z(θ+ϕ))log(Z(θ))θ0

等価性の完全な証拠を見つけることができませんでした。通常、人々はそれを省略します。連続出力スペースの非常に簡潔な派生は、Xinhua Zhangの「グラフィカルモデル」論文の5ページにあります。Lawrence D. Brownの「Fundamentals of statistics exponential familys」の完全な派生は見た


2

まず、凸性は関数の特徴であるだけでなく、関数それが定義されるドメインです。

質問にもっと直接対処するには、別の手法(別の定式化)で尤度関数のヘッセ行列を計算します。Wiki ごとに、いくつかの変数の2回微分可能な連続関数は、そのヘッセ行列が凸集合の内部で正の半定値である場合に限り、凸集合で凸になります

ヘッセ行列は実対称であるため、PSDになるには対角支配が十分です(これはロジスティックモデルで明らかになります)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.