ロジスティック回帰は閉じた形でいつ解決されますか?


31

かかる場合x{0,1}d及びy{0,1}、我々は、ロジスティック回帰を用いたX所与Yを予測するタスクをモデル化すると仮定する。ロジスティック回帰係数はいつ閉じた形で記述できますか?

1つの例は、飽和モデルを使用する場合です。

つまり、定義しますP(y|x)exp(iwifi(xi))。ここで、iのべき集合の集合にインデックスを付け{x1,,xd}fiは1を返します。i番目のセットのすべての変数が1の場合、それ以外の場合は0です。次に、このロジスティック回帰モデルの各wiを、データの統計の有理関数の対数として表現できます。

閉じたフォームが存在する場合、他の興味深い例はありますか?


4
「パラメータのMLEが閉じた形になるのはいつですか」という意味だと思います。
-Glen_b

あなたがやったことをもっと詳しく教えてもらえますか?あなたの質問は、ロジスティック回帰問題の通常の最小二乗推定量を導き出したように見えますか?
モモ

1
興味深い投稿/質問、ヤロスラフに感謝します。あなたが示す例のリファレンスはありますか?
ビット単位14

1
しばらく経ちましたが、ローリッツェンの「グラフィカルモデル」の本に載っていた可能性があります。この質問に対する答えのより広範な基盤があります-十分な統計によって形成された(ハイパー)グラフが和音である場合、閉じた形式のソリューションを取得します
Yaroslav Bulatov

これは面白いかもしれませんtandfonline.com/doi/abs/10.1080/…これは、2x2テーブルしか持っていない場合の分析ソリューションの特別なケースだと思います
Austin

回答:


33

kjetil b halvorsenが指摘したように、それ自体、線形回帰が分析的解決策を認めることは奇跡です。そして、これは問題の線形性のおかげでのみです(パラメーターに関して)。OLSでは、次のものが 一次条件を有している - 2 Σ IをY 、I - X ' I βはxはiが = 0 での問題のために、Pを

i(yixiβ)2minβ,
2i(yixiβ)xi=0
p変数(必要に応じて定数を含む-原点の問題にも回帰がある)、これは方程式とp個の未知数を持つシステムです。最も重要なことは、線形システムであるため、標準の線形代数の理論と実践を使用して解決策を見つけることができることです。このシステムには、完全に共線的な変数がない限り、確率1の解があります。pp

さて、ロジスティック回帰では、物事はもう簡単ではありません。対数尤度関数 およびMLEを見つけるために、その誘導体を取って、我々が得る リットルを

l(y;x,β)=iyilnpi+(1yi)ln(1pi),pi=(1+exp(θi))1,θi=xiβ,
のパラメータはβ非常に非線形な方法でこれを入力します毎I、そこ非線形関数の、それらが一緒に加算されます。そこには解析解は(2つの観察、またはそのような何かに些細な状況ではおそらく除く)ではありません、あなたが使用する必要があり、非線形最適化手法を推定は見つけることが β
lβ=idpidθ(yipi1yi1pi)xi=i[yi11+exp(xiβ)]xi
βiβ^

問題を少し詳しく調べると(2次導関数を取得)、これは最大の凹関数(栄光化された多変量放物線)を見つける凸最適化問題であるため、どちらかが存在し、合理的なアルゴリズムはむしろそれを見つける必要があることがわかりますすぐに、または物事が無限に吹き飛ばされます。後者は、いくつかのためにCProb[Yi=1|xiβ>c]=1c、つまり、完全な予測ができます。これはかなり不愉快なアーティファクトです。完璧な予測ができると、モデルは完璧に機能しますが、不思議なことに、逆になります。


問題は、最後の方程式が解けない理由です。0と1でのロジスティック関数の逆発散によるものですか、それとも一般的な非線形性によるものですか?
eyaler

5
(+1)最後の段落について:数学的な観点から、MLEが完全な分離超平面を生成するという意味で「完全に」機能します。その状況で数値アルゴリズムが適切に動作するかどうかは、別の問題です。ラプラススムージングは​​、このような状況でよく使用されます。
枢機

@eyaler、これは一般的な非線形性によるものだと思います。私の理解では、これを解決できる状況は限られていますが、これらの状況が何であるかはわかりません。
StasK

1
システムに閉形式の解を持たせない数学的な条件は何ですか?一般的に物事が閉じたフォームのソリューションを持っていない一般的な条件はありますか?
チャーリーパーカー

ロジスティック回帰が閉じた形式を持たないという事実は、勾配降下法の反復を調べることによって証明できるものですか?
チャーリーパーカー

8

This post was originally intended as a long comment rather than a complete answer to the question at hand.

From the question, it's a little unclear if the interest lies only in the binary case or, perhaps, in more general cases where they may be continuous or take on other discrete values.

One example that doesn't quite answer the question, but is related, and which I like, deals with item-preference rankings obtained via paired comparisons. The Bradley–Terry model can be expressed as a logistic regression where

logit(Pr(Yij=1))=αiαj,
and αi is an "affinity", "popularity", or "strength" parameter of item i with Yij=1 indicating item i was preferred over item j in a paired comparison.

If a full round-robin of comparisons is performed (i.e., a pairwise preference is recorded for each unordered (i,j) pair), then it turns out that the rank order of the MLEs α^i correspond to the rank order of Si=jiYij, the sum total of times each object was preferred over another.

To interpret this, imagine a full round-robin tournament in your favorite competitive sport. Then, this result says that the Bradley–Terry model ranks the players/teams according to their winning percentage. Whether this is an encouraging or disappointing result depends on your point of view, I suppose.

NB This rank-ordering result does not hold, in general, when a full round-robin is not played.


2
I was interested in binary because it was easiest to analyze. I have found a very broad sufficient condition in works of Lauritzen -- you get closed form if a corresponding log-linear model is decomposable
Yaroslav Bulatov
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.