各値をベクトルの合計で除算できるのに、softmax関数を使用して確率を計算するのはなぜですか？

20

ベクター上にソフトマックス関数を適用する間に、「確率」との値を生成する及び。 $0$ $1$

しかし、我々はまた、ベクトルの和によって各値を分割することができ、それは間確率と値を生成する及び。 $0$ $1$

私はここで答えを読みましたが、理由はそれが微分可能であるためだと言いますが、両方の関数は微分可能です。

machine-learning neural-networks softmax

— フロイド
ソース

1

ロジスティック回帰を最初に見ると良いと思います。あなたの「目標」は、単調にを（0,1）に変換することです。これがロジスティック関数の機能です。実線上の累積（確率）分布関数も機能することに注意してください-正規分布関数を使用するプロビット回帰を参照してください。

(- \infty, \infty)

$(-\infty, \infty)$

— seanv507

回答:

36

提案する関数は、要素の合計がゼロのときは常に特異点を持っています。

ベクトルがます。このベクトルの合計は0なので、除算は定義されていません。ここでは関数は微分不可能です。 $[-1, \frac{1}{3}, \frac{2}{3}]$

さらに、ベクトルの1つ以上の要素が負であるが、合計がゼロでない場合、結果は確率ではありません。

ベクトルがます。これは合計が1なので、関数を適用するとになります。これは、負の要素と1を超える要素を持つため、確率ベクトルではありません。 $[-1, 0, 2]$ $[-1, 0, 2]$

より広い視野で見ると、バイナリロジスティック回帰を3つ以上のカテゴリの結果のケースに拡張するという観点から、softmax関数の特定の形式を動機付けることができます。

コメントで示唆されているように、絶対値や二乗をとるなどのことをするということは、と予測確率が同じであることを意味します。これは、モデルが識別されないことを意味します。対照的に、はすべての実数に対して単調で正であるため、softmaxの結果は（1）確率ベクトルと（2）多項ロジスティックモデルが識別されます。 $-x$ $x$ $\exp(x)$ $x$

— シコラックス、モニカを復職させる
ソース

どうもありがとうございます。絶対値の合計で割ることで両方の問題を解決できますよね？

— フロイド

2

いいえ。両方の例の絶対値を合計し、その合計で除算するとどうなりますか？

— Sycoraxによると、Reinstate Monica

本当にありがとう。わかった。しかし、分子の絶対値を取得するか、ベクトルの各値に対してを計算することにより、この問題を解決できます。私は頑固になろうとはしていません。確率を計算するための単純な関数がありますが、人々が複雑な関数を発明したのはおかしいと思います。私は多くの数学を知らないので、他の数学的な性質があるかもしれません

x_{i}^{2} / s u m (X^{2})

$x_i^2/sum(X^2)$

— フロイド

8

提案はまだ失敗します。softmax関数のその他の理由は、複数の結果の場合に対するバイナリロジスティック回帰の一般化としてのプロパティに関連しています。私たちは、次のようなこの程度のスレッドの数持ってstats.stackexchange.com/questions/349418/...を

[0, 0, 0]

$[0,0,0]$

— Sycoraxは回復モニカ言う

8

Sycoraxのポイントに加えて、またはには、ベクトル要素を減らすとその確率寄与が常に小さくなるという望ましい特性がありません。負の要素を減らすと、その貢献度が高まります。は、出力がすべての実入力に対して正であり、実行全体で単調であるという素晴らしい特性があります。

x_{i}^{2} / \sum_{j} x_{j}^{2}

$x_i^2 / \sum_j x_j^2$

| x_{i} | / \sum_{j} | x_{j} |

$|x_i| / \sum_j |x_j|$

\exp (x)

$\exp(x)$

— ブリッジバーナー

4

Softmaxには2つのコンポーネントがあります。

コンポーネントをe ^ xに変換します。これにより、ニューラルネットワークは通常の確率ではなく対数確率で動作することができます。これは、確率を乗算する一般的な操作を加算に変換します。これは、ニューラルネットワークの線形代数ベースの構造にとってはるかに自然です。
合計を1に正規化します。これが必要な合計確率であるためです。

これの1つの重要な結果は、分母によって正規化された確率の単なる乗算であるため、ベイズの定理がそのようなネットワークにとって非常に自然であるということです。

ソフトマックスアクティベーションを使用した単層ネットワークの些細なケースは、ロジスティック回帰と同等です。

2つのコンポーネントsoftmaxの特殊なケースはシグモイドアクティベーションに相当し、2つのクラスしかない場合に人気があります。マルチクラス分類では、クラスが相互に排他的である場合はsoftmaxが使用され、独立している場合はコンポーネント単位のシグモイドが使用されます。

— CodesInChaos
ソース

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。

Licensed under cc by-sa 3.0 with attribution required.