なぜ2つの異なるロジスティック損失定式化/表記法があるのですか？

2種類のロジスティック損失の公式を見てきました。それらが同一であることを簡単に示すことができます。唯一の違いは、ラベル定義です。 $y$

定式化/表記法1、： $y \in \{0, +1\}$

L (y, β^{T} x) = - y \log (p) - (1 - y) \log (1 - p)

$L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p)$

ここで、、ここでロジスティック関数は実数を0,1間隔にマッピングします。 $p=\frac 1 {1+\exp(-\beta^Tx)}$ $\beta^T x$

定式化/表記法2、： $y \in \{-1, +1\}$

L (y, β^{T} x) = \log (1 + \exp (- y \cdot β^{T} x))

$L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx}))$

表記法を選択することは、言語を選択するようなものであり、どちらを使用するかには賛否両論があります。これら2つの表記法の長所と短所は何ですか？

この質問に答えようとする私の試みは、統計コミュニティが最初の表記を好み、コンピュータサイエンスコミュニティが2番目の表記を好むように見えることです。

ロジスティック関数は実数を0.1間隔に変換するため、最初の表記は「確率」という用語で説明できます。 $\beta^Tx$
2番目の表記はより簡潔で、ヒンジ損失または0-1損失と比較するのがより簡単です。

私は正しいですか？他の洞察はありますか？

— ハイタオドゥ
ソース

これはすでに何度も尋ねられたに違いない。例：stats.stackexchange.com/q/145147/5739

— StasK

なぜ2番目の表記法はヒンジ損失と比較しやすいと言っていますか？代わりに定義されているからといって？

{- 1, 1}

$\{-1, 1\}$

{0, 1}

$\{0, 1\}$

— シャドウトーカー

私はちょっと最初の形の対称性が好きですが、線形部分はかなり深く埋められているので、作業が難しい場合があります。

— マシュードゥルーリー

@ssdecontrolは、この図を確認してください。cs.cmu.edu/〜yandongl / loss.htmlここで、x軸はで、y軸は損失値です。このような定義は、01損失、ヒンジ損失などと比較するのに便利です。

- y \cdot β^{T} x

$-y\cdot \beta^Tx$

— Haitao Du

回答:

ショートバージョン

はい
はい

ロングバージョン

数学的モデリングの良いところは、柔軟性があることです。これらは確かに同等の損失関数ですが、データの非常に異なる基礎モデルから派生しています。

式1

最初の表記導出ベルヌーイ確率モデルのための従来、上で定義され、。このモデルでは、結果/ラベル/クラス/予測は、分布に従うランダム変数で表されます。したがって、その可能性は次のとおりです $y$ $\{0, 1\}$ $Y$ $\mathrm{Bernoulli}(p)$

P （ Y = y | p ） = L （ p; y ） = p^{y} （ 1 - p ）^{1 - y} = {\begin{cases} 1 - p & y = 0 \\ p & y = 1 \end{cases}

$P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases}$

以下のため。インジケータ値として0と1を使用すると、右端の区分的関数を簡潔な式に減らすことができます。 $p\in[0, 1]$

あなたが指摘してきたように、あなたがしてリンクすることができます入力データの行列にせることにより。ここから、簡単な代数的操作により、は質問の最初のと同じであることがわかります（ヒント：）。したがって、対数損失を最小化することは、ベルヌーイモデルの最尤推定と同等です。 $Y$ $x$ $\operatorname{logit} p = \beta^T x$ $\log \mathcal L(p;y)$ $L(y, \beta^Tx)$ $(y - 1) = - (1 - y)$ $\{0, 1\}$

この定式化は、一般化線形モデルの特殊なケースでもあり、反転可能微分可能関数および分布として定式化されます。指数ファミリー。 $Y \sim D(\theta),\ g(Y) = \beta^T x$ $g$ $D$

フォーミュラ2

実際..私はフォーミュラ2に精通していません。ただし、サポートベクターマシンの定式化ではを定義することが標準です。SVMの近似は、を最大化することに相当し $y$ $\{-1, 1\}$

最大 （ {0 、 1 - y β^{T} バツ} ） + λ ‖ β ‖^{2} 。

$\max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2.$

これは、制約付き最適化問題のラグランジアン形式です。それはまたの例正則目的関数で最適化問題いくつかの損失関数についてとスカラーハイパーコントロールという正則の量（「収縮」とも呼ばれます）は適用されます。ヒンジの損失は、ドロップインの可能性の1つにすぎず、質問に2番目のも含まれます。

ℓ （ y 、 β ） + λ ‖ β ‖^{2}

$\ell(y, \beta) + \lambda \|\beta\|^2$

ℓ

$\ell$

λ

$\lambda$

β

$\beta$

ℓ

$\ell$

L (y, β^{T} x)

$L(y, \beta^Tx)$

— シャドウトーカー
ソース

フォーミュラ1では、

p^{y} （ 1 - p ）^{1 - y 1 - y}

$p^y(1 - p)^{\pmb{1 - y}}$

— glebm

@ssdecontrolには非常に良い答えがあったと思います。私は自分の質問にフォーミュラ2のコメントを追加したいだけです。

L （ y 、 \hat{y} ） = ログ （ 1 + \exp （ - y \cdot \hat{y} ） ）

$L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y}))$

人々がこの定式化を好む理由は、それが非常に簡潔であり、「確率解釈の詳細」を削除するからです。

トリッキーな表記がある、ノート、バイナリ変数ですが、ここでは実数です。定式化1と比較して、離散ラベルにするために2つの追加ステップ、ステップ1が必要です。sigmod関数ステップ2. 0.5しきい値を適用します。 $\hat y$ $y$ $\hat y$

しかし、これらの詳細がなければ、01損失やヒンジ損失などの他の分類損失と簡単に比較できます。

L_{01} （ y 、 \hat{y} ） = 私 [y \cdot \hat{y} > 0] L_{ちょうつがい} （ y 、 \hat{y} ） = （ 1 - y \cdot \hat{y} ）_{+} L_{ロジスティック} （ y 、 \hat{y} ） = ログ （ 1 + \exp （ - y \cdot \hat{y} ） ）

$L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y))$

ここで、3つの損失関数をプロットします。x軸は、y軸は損失値です。上記のすべての式で、は実数であり、この数は線形形式または他の形式から取得できます。このような表記は、確率の詳細を隠します。 $y \cdot \hat y$ $\hat y$ $\beta^Tx$

— ハイタオドゥ
ソース

簡単な比較についてあなたが言うことを見る

— シャドウトーカー