尤度を最大化するロジスティック回帰は、線形モデルよりもAUCも最大化する必要がありますか?


13

バイナリの結果およびいくつかの予測行列データセットが与えられると、標準ロジスティック回帰モデルは係数推定します二項尤度を最大化します。がフルランクの場合、は一意です。完全な分離が存在しない場合、有限です。y{0,1}nXRn×pβMLEXβMLE

この最尤モデルはROC AUC(別名統計)も最大化しますか、またはより高いROC AUCを取得する係数推定存在しますか?MLEが必ずしもROC AUCを最大化するとは限らない場合、この質問を見るもう1つの方法は、「ロジスティック回帰のROC AUCを常に最大化する尤度最大化の代替手段はありますか?」です。cβAUCβMLE

それ以外のモデルは同じであると仮定しています:で予測子を追加または削除したり、モデルの仕様を変更したりすることはなく、尤度最大化モデルとAUC最大化モデルが同じリンク関数を使用していると仮定しています。X


2
確かにであれば、例えば、いくつかのリンク機能は、ロジットより良いフィット感を生成しますか?それ以外に、データ生成プロセスをロジットと見なすことができるかどうか、良い質問です。βAUCβMLE
Nutle

良い質問ですが、これを考慮してください。ROCとAUCを使用して2つの異なるモデルを比較するため、いずれかのモデルのMLE推定のソリューションが一意である場合、現在のモデルの仕様を変更して新しい異なるモデルを推定した場合にのみ、異なるAUCを取得できることを意味しますMLE経由のモデル。したがって、この時点で別の質問があります:同じモデルに適用可能な単純なMLE以外の「より良い」推定方法(最大化アルゴリズムecc)があり、新しい「より良い」ベータにつながる係数の異なる推定値に到達しますより高いAUCで?
Fr1

@Nutle正確に、それは別の仕様になります
Fr1

@ Fr1はい、それがユニークな意味です。私の質問で私が示唆しているのは、「より高いAUCを達成するMLEに代わるものがあるとしたら?」のようなものです。より高いAUCを達成する別の線形モデル(MLE以外のモデル)が存在することが真実である場合、それは知っておくと興味深いでしょう。
シコラックスは、モニカを復活させる

1
@Sycorax他に何を仮定しますか?:) リンクと変数が使用されいる真のDGP を知っている場合、MLEは一様に最も強力な不偏統計であるため、仮定は重要です。
Nutle

回答:


11

それはそうではないことβMLE=βAUC

これを説明するために、AUCが

P(y^1>y^0|y1=1,y0=0)

つまり、AUCに影響するのは予測の順序だけです。これは、尤度関数の場合ではありません。だから、精神的な練習として、我々は、単一の予測因子を持っていたし、私たちのデータセットでは、我々は完全な分離(すなわち、表示されていないと仮定βMLE有限です)。ここで、最大の予測子の値を取得し、それを少し増やすと、このソリューションの可能性は変わりますが、順序は変わらないため、AUCは変わりません。したがって、古いMLEがAUCを最大化した場合、予測変数を変更した後も引き続きAUCが最大化されますが、尤度は最大化されなくなります。

したがって、非常に少なくとも、その場合ではないβAUC一意ではありません。任意のβの推定値の順序を保持し、まったく同じAUCを達成しています。AUCは、データのさまざまな側面に敏感であるため、一般的には、私たちはケースを見つけることができるはずと信じているでしょうβMLE最大化しないβAUC。実際、私はこれが高い確率で起こると推測します。

編集(コメントを回答に移動)

次のステップは、MLEがAUCを必ずしも最大化しないことを証明することです(まだ証明されていません)。一つは、予測因子1、2、3、4、5、6のようなものを取ることによってこれを行うことができx(とx>6成果0、0、0、1、1、1、0と任意の正の値)β意志(関係なく、値のAUCを最大化x)が、我々は選ぶことができxという十分な大きさをβMLE<0


1
(+1)ああ!もちろん、順序付けに関するものなので、明らかに尤度値を変更する必要があるインターセプトを任意に変更できますが、特徴係数が変更されていないため順序付けは同じでなければならず、AUCは固定されたままです。
シコラックスは、モニカを復活させる

+1。ただし、編集例はで機能しますか?これを大きなnで動作させるのに十分な大きさのxを取得する必要がある場合、いくつかの固定ロジットでは、そのような値が存在する確率はすぐに0に収束しませんか?nxn
Nutle

@Nutle:まあ、についてのあなたの意味に依存します。おもちゃのデータセットのn個のコピー(予測子+結果)を取得した場合、結果は保持されます。ただし、これらの予測子のセットのn個のコピーを取得し、データが実際にロジスティック回帰モデルから取得された場合、それはほとんど発生しません(指摘するとおり)。ただし、予測子間の関係が実際にロジスティック回帰モデルに従っていない場合、これに似たことが高い確率で発生する可能性があることに注意してください。nnn
クリフAB

xn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.