ロジスティック回帰で対数損失の代わりにMSEを使用する

9

ロジスティック回帰の損失関数（通常は対数尤度）をMSEに置き換えます。つまり、対数オッズ比がパラメーターの線形関数であっても、推定確率と結果（0/1としてコード化）の差の2乗の合計を最小化します。

$\log \frac p{1-p} = \beta_0 + \beta_1x_1 + ... +\beta_nx_n$

代わりにを最小化し。 $\sum(y_i - p_i)^2$ $\sum [y_i \log p_i + (1-y_i) \log (1-p_i)]$

もちろん、いくつかの仮定の下で対数尤度が理にかなっている理由は理解しています。しかし、通常は仮定が行われない機械学習で、MSEが完全に不合理である直感的な理由は何ですか？（またはMSEが意味をなす可能性のある状況はありますか？）

— 最高
ソース

MSEを最適化基準として使用できますが、その場合は最尤で最適化するのではなく、勾配降下法を使用して最適化する必要があります。これは基本的に線形パーセプトロンが行うことです。

— Digio

12

簡単に言えば、尤度理論は、最適解に導くためのガイドであり、尤度、ペナルティ付き尤度、またはベイズ事後密度以外のものを最大化すると、次善の推定量が得られるということです。第2に、二乗誤差の合計を最小化すると、真の確率の不偏推定につながります。ここでは、偏りのない見積もりを希望しません。その見積もりを負にすることも、1より大きいこともあるからです。推定値を適切に制約するには、一般に、確率（ロジットではない）スケールで、わずかにバイアスされた推定値（中央に向かって）を取得する必要があります。

機械学習の方法が仮定を行わないとは思わないでください。この問題は機械学習とはほとんど関係がありません。

個々の比率は真の確率の不偏推定値であることに注意してください。したがって、切片のみを含むバイナリロジスティックモデルは不偏推定値を提供します。有する単一予測子を持つバイナリロジスティックモデル相互に排他的なカテゴリが提供されるの確率の不偏推定値を。加法性の仮定を利用し、ユーザーがデータ範囲外の推定を要求できるようにするモデル（たとえば、連続する単一の予測子）は、を尊重するように確率スケールに小さなバイアスがあると思い制約。 $k$ $k$ $[0,1]$

— フランク・ハレル
ソース

4

フランク・ハレルの答えは正しいですが、質問の範囲を逃していると思います。あなたの質問への答えは「はい」です。MSEはMLノンパラメトリックシナリオで意味を成します。ロジスティック回帰に相当するMLは線形パーセプトロンであり、これは仮定を行わず、MSEをコスト関数として使用します。これは、パラメータートレーニングにオンライン勾配降下法を使用し、凸最適化問題を解決するため、パラメーター推定値は大域的最適値でなければなりません。2つの方法の主な違いは、ノンパラメトリックアプローチでは信頼区間とp値が得られないため、モデルを推論に使用できず、予測にのみ使用できることです。

線形パーセプトロンは確率的な仮定を行いません。線形分離可能であるというデータの仮定がありますが、これはモデルの仮定ではありません。MSEは理論的には異分散性の影響を受ける可能性がありますが、実際にはこの効果は活性化関数によって無効になります。

— Digio
ソース