あなたはロジスティック回帰をまったく望んでいないようです。あなたは、「真の陽性と偽陽性の差を最大化したい」と言っています。これはすばらしい目的関数ですが、ロジスティック回帰ではありません。それが何であるか見てみましょう。
まず、いくつかの表記法。従属変数はになります:Yi
Yi={1Purchase i was profitable0Purchase i was un-profitable
独立変数(購入すべきかどうかを予測するために使用するもの)は(ベクトル)になります。推定しようとしているパラメーターは(ベクトル)になります。ときに購入を予測し。観測値場合、とき、またはインジケーター関数ときに買いを予測します。XiβXiβ>0iXiβ>01Xiβ>0=1
と両方の場合、真の陽性は観測値発生します。および場合、観測値誤が発生します。真陽性から偽陽性を引いた値を最大化するを見つけたい、または:
iYi=11Xiβ>0=1iYi=01Xiβ>0=1β
maxβ∑i=1NYi⋅1Xiβ>0−∑i=1N(1−Yi)⋅1Xiβ>0
私は目的関数にはほとんど代数を行いながら、これは個別の応答モデルを推定するために特になじみの目的関数ではありませんが、私と一緒にクマ:
===∑i=1NYi⋅1Xiβ>0−∑i=1N(1−Yi)⋅1Xiβ>0∑i=1NYi⋅1Xiβ>0−∑i=1N1Xiβ>0+∑i=1NYi⋅1Xiβ>0∑i=1NYi⋅1Xiβ>0−∑i=1N1Xiβ>0+∑i=1NYi⋅1Xiβ>0+∑i=1N1−∑i=1N1+∑i=1NYi−∑i=1NYi∑i=1NYi⋅1Xiβ>0+∑i=1N(1−Yi)(1−1Xiβ>0)−∑i=1N1+∑i=1NYi
OK、今度はその合計の最後の2つの項が関数ではないので、最大化でそれらを無視できることに注意してください。最後に、「真陽性と偽陽性の差を最大化する」という解決したい問題がこの問題と同じであることを
β
maxβ∑i=1NYi⋅1Xiβ>0+∑i=1N(1−Yi)(1−1Xiβ>0)
今、その推定者には名前があります!これは最大スコア推定量と呼ばれます。これは、離散応答モデルのパラメーターを推定する非常に直感的な方法です。パラメータは、正しい予測の数が最大になるように選択されます。最初の項は真陽性の数であり、2番目の項は真陰性の数です。
これは、(バイナリ)離散応答モデルを推定するためのかなり良い方法です。たとえば、推定量は一貫しています。(Manski、1985、J of Econometrics)ただし、この推定量にはいくつかの奇妙な点があります。第一に、それは小さなサンプルでは一意ではありません。最大化を解決する1つのを見つけたら、データセット内でまったく同じ予測を行う他のが最大化を解決します---したがって、見つけたものに近い無限の多くのが見つかります。また、推定量は漸近的に正常ではなく、一般的な最尤推定量よりも遅く収束します---ルート代わりにルートキューブしますβββNN収束。(Kim and Pollard、1990、Ann of Stat)最後に、ブートストラップを使用して推論を行うことはできません。(Abrevaya&Huang、2005、Econometrica)ただし、この推定量を使用したいくつかの論文があります--- CaudillによるNCAAバスケットボールトーナメントの結果を予測することについては楽しい論文があります、International Journal of Forecasting、2003年4月、v。19 2、313〜17ページ。
これらの問題のほとんどを克服する推定量は、ホロウィッツの平滑化最大スコア推定量です(Horowitz、1992、EconometricaおよびHorowitz、2002、J of Econometrics)。これは、ルート一致し、漸近的に正常な、ブートストラップに適した一意の推定量を提供します。Horowitzは、彼の推定量を彼のWebページに実装するためのサンプルコードを提供しています。N