2
なぜ2つの異なるロジスティック損失定式化/表記法があるのですか?
2種類のロジスティック損失の公式を見てきました。それらが同一であることを簡単に示すことができます。唯一の違いは、ラベル定義です。yyy 定式化/表記法1、:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) ここで、、ここでロジスティック関数は実数を0,1間隔にマッピングします。p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x 定式化/表記法2、:y∈{−1,+1}y∈{−1,+1}y \in \{-1, +1\} L(y,βTx)=log(1+exp(−y⋅βTx))L(y,βTx)=log(1+exp(−y⋅βTx)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 表記法を選択することは、言語を選択するようなものであり、どちらを使用するかには賛否両論があります。これら2つの表記法の長所と短所は何ですか? この質問に答えようとする私の試みは、統計コミュニティが最初の表記を好み、コンピュータサイエンスコミュニティが2番目の表記を好むように見えることです。 ロジスティック関数は実数を0.1間隔に変換するため、最初の表記は「確率」という用語で説明できます。βTxβTx\beta^Tx 2番目の表記はより簡潔で、ヒンジ損失または0-1損失と比較するのがより簡単です。 私は正しいですか?他の洞察はありますか?