Scikit二項偏差損失関数

これはscikit GradientBoostingの2項偏差偏差関数です。

   def __call__(self, y, pred, sample_weight=None):
        """Compute the deviance (= 2 * negative log-likelihood). """
        # logaddexp(0, v) == log(1.0 + exp(v))
        pred = pred.ravel()
        if sample_weight is None:
            return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred))
        else:
            return (-2.0 / sample_weight.sum() *
                    np.sum(sample_weight * ((y * pred) - np.logaddexp(0.0, pred))))

この損失関数は、0のクラスと1のクラスの間で類似していません。これがどのようにOKと見なされるかを誰かが説明できますか

たとえば、サンプルの重さがなければ、クラス1の損失関数は次のようになります。

-2(pred - log(1 + exp(pred))

クラス0の場合

-2(-log(1+exp(pred))

これら2つのプロットは、コストの点で似ていません。誰かが私を理解するのを手伝ってくれる？

— クマラン
ソース

この実装を理解するには、2つの観察が必要です。

最初は確率でpredはなく、対数オッズです。

2つ目は、このような二項偏差の標準代数的操作です。してみましょう対数オッズも、何が呼び出されます。次に、観測値の二項逸脱度の定義は次のとおりです（最大因数） $P$ sklearnpred $-2$

y ログ （ p ） + （ 1 - y ） ログ （ 1 - p ） = ログ （ 1 - p ） + y ログ （ \frac{p}{1 - p} ）

$y \log(p) + (1-y) \log(1 - p) = \log(1 - p) + y \log \left( \frac{p}{1-p} \right)$

ここで、および確認し（簡単なチェックは、それらを合計することですあなたの頭の中で、あなたは得るでしょう）。そう $p = \frac{e^{P}}{1 + e^{P}}$ $1-p = \frac{1}{1 + e^{P}}$ $1$

ログ （ 1 - p ） = ログ （ \frac{1}{1 + e^{P}} ） = - ログ （ 1 + e^{P} ）

$\log(1-p) = \log \left( \frac{1}{1 + e^{P}} \right) = - \log(1 + e^{P})$

そして

ログ （ \frac{p}{1 - p} ） = ログ （ e^{P} ） = P

$\log \left( \frac{p}{1-p} \right) = \log ( e^{P} ) = P$

つまり、二項偏差は

y P - ログ （ 1 + e^{P} ）

$y P - \log( 1 + e^{P} )$

これは方程式sklearnが使用しています。

— マシュードゥルーリー
ソース

ありがとうございます。pred対数オッズで置き換えると、損失関数は両方のクラスで均一になります。

— クマラン

この同じ質問が最近私に起こりました。私は見ていたgradientboostedmodels.googlecode.com/git/gbm/inst/doc/gbm.pdfの逸脱の勾配が表示されている10ページ。しかし、彼らが示す勾配は、負の対数ではなく対数であるように見えます。これは正しいですか。ここでの説明と一致しているようです。

— B_Miner 2016年

@B_Minerリンクが壊れている

— GeneX

本当にありがとう@Matthew Drury

— Catbuilts