LSTM(および一般にニューラルネットワーク)の温度とは何ですか?


回答:


28

温度は、softmaxを適用する前にロジットをスケーリングすることで予測のランダム性を制御するために使用されるLSTM(および一般にニューラルネットワーク)のハイパーパラメーターです。たとえば、LensorsのTensorFlowのMagenta 実装では、温度はソフトマックスを計算する前にロジットを分割する量を表します。

温度が1の場合、ロジット(以前のレイヤーのスケールなし出力)でソフトマックスを直接計算し、0.6の温度を使用して、モデルはで計算し、より大きな値になります。大きな値でsoftmaxを実行すると、LSTMの信頼性が高まります(出力レイヤーをアクティブにするために必要な入力が少なくなります)が、サンプルの保守性も高まります(可能性の低い候補からサンプリングする可能性が低くなります)。より高い温度を使用すると、クラス全体の確率分布がよりソフトになり、RNNがサンプルによってより「興奮しやすく」なり、結果として多様性ミスが増えます。logts0.6

ニューラルネットワークは確率ベクトルを生成するために関数を実行することによりロジットベクトルでクラス確率を生成しますここでと他のロジットとを比較します。zz=z1znq=q1qnz

(1)q=expz/Tjexpzj/T

ここで、温度パラメータであり、通常は1に設定されます。T

softmax関数は、ネットワーク出力がすべてのタイムステップで0から1の間になるようにすることにより、指数値に基づいてネットワークの各反復で候補を正規化します。

したがって、温度は、低確率の候補に対する感度を高めます。LSTMでは、候補、またはサンプルは、文字、単語、または音符である場合があります。次に例を示します。

高温()の場合、すべての[サンプル]はほぼ同じ確率を持ち、温度が低いほど、より多くの期待される報酬が確率に影響します。低温()の場合、予想される報酬が最も高い[サンプル]の確率は1になる傾向があります。ττ0+

- ソフトマックス関数に関するウィキペディアの記事から

参照

ヒントン、ジェフリー、オリオールヴィニャール、ジェフディーン。「ニューラルネットワークで知識を抽出する。」arXivプレプリントarXiv:1503.02531(2015)。arXiv


3
ボルツマン分布(またはギブス分布) -統計力学で使用される確率分布を暗示しています。
MC2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.