等しくないクラスのSoftmax回帰バイアスと事前確率

マルチクラス分類問題にSoftmax回帰を使用しています。各クラスの事前確率が同じではありません。

私はロジスティック回帰（2つのクラスの回帰）から、クラスの以前の確率がバイアス（）に暗黙的に追加されることを。 $\log(p_0/p_1)$

通常、私は手動でこの用語をバイアスから削除します。

私の質問は、ソフトマックス回帰バイアスの対応する用語は何ですか？

ありがとう。

logistic prior unbalanced-classes

— ラン
ソース

私の知る限りでは、ソフトマックスバイアスの初期化の正当化は少し手ごたえです。softmax回帰は最大（対数）尤度推定であり、モデルは次のとおりです：我々の意図初期化バイアスが良い値を見つけることですとこれで、高を開始します。を0に近い小さな値で初期化するという仮定の下で、 $W,\textbf{b}$

y \sim Cat (σ (W x + b)); σ_{i} (z) = \frac{\exp z_{i}}{\sum_{j} \exp z_{j}} .

$\DeclareMathOperator{cat}{Cat} \newcommand{\norm}[1]{\left\| #1 \right\|} \newcommand{vsigma}{{\boldsymbol\sigma}} \newcommand{vx}{{\textbf{x}}} \newcommand{vb}{{\textbf{b}}} \newcommand{vz}{{\textbf{z}}} y\sim\cat(\vsigma(W\vx+\vb)); \;\;\;\sigma_i(\vz)=\frac{\exp z_i}{\sum_j\exp z_j}.$

b

$\vb$

p (x, y | W, b) \propto p (y | W, b, x)

$p(\vx, y|W,\vb)\propto p( y|W,\vb,\vx)$

W

$W$

y

$y$ は、ラベルなので、すべての仮定された独立した例の対数確率の合計、aを適切に初期化すると、概算のデータログの全体的な可能性が最小限になります。上記のwrtの勾配はで、各クラスのカウントのベクトル。上記の関数も凹形です。

[K]

$[K]$

W x \approx 0

$W\vx\approx 0$

\log p (y | W, b, x) = \sum_{k = 1}^{K} 1_{y = k} \log σ_{k} (W x + b) \approx \log σ_{y} (b)

$\log p( y|W,\vb,\vx)=\sum_{k=1}^K1_{y=k}\log \sigma_k(W\vx + \vb)\approx\log\sigma_y(\vb)$

{(x_{i}, y_{i})}_{i = 1}^{n}

$\{(\vx_i,y_i)\}_{i=1}^n$

b

$\vb$

\sum_{i = 1}^{n} \log σ_{y_{i}} (b) = \sum_{i = 1}^{n} b_{y_{i}} - n \log \sum_{k = 1}^{K} \exp b_{k}

$\newcommand{vc}{{\textbf{c}}} \sum_{i=1}^n\log\sigma_{y_i}(\vb)=\sum_{i=1}^nb_{y_i}-n\log\sum_{k=1}^K\exp b_k$

b

$\vb$

c - n σ (b)

$\vc-n\vsigma(\vb)$

c \in N^{K}

$\vc\in\mathbb{N}^K$ 証明のためにスムーズマックスについての質問をここで見てください。

上記の2つの事実は、ときはいつでも最大値が利用できることを意味します。これは、順番に、のための実行可能な初期化を示唆して番目の用語バイアスの確かにあるの割合（マージナル統計別名）トレーニングセットの例-標識。任意の定数を追加して、別の尤度最大化バイアスを達成することもできます。ただし、大規模な場合はの学習の邪魔になり。ロジスティックバイアスとの関係は偶然ではありません--- このチュートリアルでは類似性について説明します。 $\vsigma(\vb)=\vc/n$ $i$ $b_i$ $\vb$ $\log p_i$ $i$ $\vb$ $W$

— VF1
ソース