私の知る限りでは、ソフトマックスバイアスの初期化の正当化は少し手ごたえです。softmax回帰は最大(対数)尤度推定であり、モデルは次のとおりです:
我々の意図初期化バイアスが良い値を見つけることですとこれで、高を開始します。を0に近い小さな値で初期化するという仮定の下で、W,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wyは、ラベルなので、
すべての仮定された独立した例の対数確率の合計、aを適切に初期化すると、概算のデータログの全体的な可能性が最小限になります。
上記のwrtの勾配はで、各クラスのカウントのベクトル。上記の関数も凹形です。
[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NK証明のために
スムーズマックスについての質問をここで見てください。
上記の2つの事実は、ときはいつでも最大値が利用できることを意味します。これは、順番に、のための実行可能な初期化を示唆して番目の用語バイアスの確かにあるの割合(マージナル統計別名)トレーニングセットの例-標識。任意の定数を追加して、別の尤度最大化バイアスを達成することもできます。ただし、大規模な場合はの学習の邪魔になり。ロジスティックバイアスとの関係は偶然ではありません--- このチュートリアルでは類似性について説明します。σ(b)=c/nibiblogpiibW