回答:
厳密に言えば、ニューラルネットワークは非線形関数に適合しています。
適切なアクティベーション関数が選択され、特定の条件が尊重される場合、値は確率密度関数に適合すると解釈できます(値は正で1 なければなりません)。しかし、それは彼らが実際に何をしているかではなく、どのように彼らの出力を解釈するかを選択することの問題です。内部では、これらはまだ非線形関数推定器であり、PDF推定の特定の問題に適用することを選択しています。
通常、ニューラルネットワークは完全な確率密度のモデル化には使用されません。彼らの焦点は、分布の平均をモデル化することです(または決定論的な状況では、単に非線形関数です)。それにもかかわらず、ニューラルネットワークを介して完全な確率密度をモデル化することは非常に可能です。
これを行う1つの簡単な方法は、ガウシアンの場合のために、例えばあるネットワークの別の出力からの1つの出力と分散の平均を放出し、次に最小化することである機能の一部として一般的な二乗誤差の代わりにトレーニングプロセス。これは、ニューラルネットワークの最尤法です。
あなたはプラグこのネットワーク毎回訓練一度、それはあなたを与えるだろう、入力として値をμとσを、あなたは全体のトリプレットプラグインすることができ、Y 、μ 、σ密度にF (Y | X )〜N (μを、σ )任意のyの密度値を取得します。この段階で、実際のドメイン損失関数に基づいて、使用するy値を選択できます。心に留めておくべきことの一つは、あなたが放出できるように、μの出力アクティベーションは無制限でなければならないということです-に + INFながら σは正のみ活性化する必要があります。
一般的に、それが決定論的な関数でない限り、ニューラルネットワークで使用される標準の2乗損失トレーニングは、上記で説明した手順とほとんど同じです。ボンネットの下のA 分布を気にすることなく、暗黙的に仮定されるσと注意深く調べると- L O G N (Y | X ; μ 、σ )あなた二乗損失の式を与える(損失ガウシアン最尤推定器の機能)。ただし、このシナリオでは、yの代わりに新しいx値を指定すると、毎回を放出することになります。
分類のための出力は次のようになります代わりの分布G U S S I N放出する単一のパラメータを有します。他の回答で指定されているように、このパラメーターは0から1の間であるため、それに応じて出力がアクティブになります。それはロジスティック関数または同じ目的を達成する何かでありえます。
より洗練されたアプローチは、ビショップの混合密度ネットワークです。これについては、頻繁に参照される以下の論文で読むことができます。
私の反対意見は、最も印象的な実用的なアプリケーション(たとえば、メディアで最も多くの報道を受けるアプリケーション)では、関数でも確率でもないということです。確率的意思決定を実装します。
それだけで機能をフィットさNNのように見える表面には、キューユニバーサル近似をます。参照をください。場合によっては、特定のアクティベーション関数とガウス誤差などの特定の仮定を使用したり、ベイジアンネットワークに関する論文を読んだりすると、NNが確率分布を生成できるようです。
ただし、これはすべて方法です。NNが行うことは、意思決定をモデル化することです。車がAIによって駆動されるとき、そのNNは、その前にオブジェクトがある確率を計算しようとせず、人間である確率を計算するオブジェクトがあることを考えます。センサー入力のさまざまな種類のオブジェクトへのマッピングも計算していません。いいえ、NNはすべての入力に基づいて意思決定を下し、横向きに操縦するか、そのまま走行し続けることになっています。確率を計算するのではなく、車に何をすべきかを伝えます。