ニューラルネットワークは関数または確率密度関数を学習しますか?


19

統計的推論とニューラルネットワークは初めてなので、質問は少し奇妙に聞こえるかもしれません。

ニューラルネットワークを使用した分類問題で、入力xの空間を出力yの空間にマッピングする関数を学習したいと言います。fxy

f(x;θ)=y

非線形関数をモデル化するために、または確率密度関数をモデル化するために、パラメーター(θ)をフィッティングしますか?

私は質問をより良い方法で書く方法を本当に知りません。私は両方のことを数回読みました(確率密度関数、またはそのような関数)ので、私の混乱。

回答:


15

厳密に言えば、ニューラルネットワークは非線形関数に適合しています。

適切なアクティベーション関数が選択され、特定の条件が尊重される場合、値は確率密度関数に適合すると解釈できます(値は正で1 なければなりません)。しかし、それは彼らが実際に何をしているかではなく、どのように彼らの出力を解釈するかを選択することの問題です。内部では、これらはまだ非線形関数推定器であり、PDF推定の特定の問題に適用することを選択しています。


3
@sdiabrでは、ネットワークでpdfをシミュレートする場合、実際にはしきい値を使用しません。pdfには1と0以外の値を設定できるためです。しきい値を使用すると、簡単な分類子になります。
スカンダーH.

2
これを確認する適切な方法は、しきい値設定がネットワークから学習したものの外部の問題であることです。この区別を尊重しないと、実世界の問題に対するMLのアプリケーションで多くの問題が発生します。
マシュードゥルーリー

1
ええ、わかりました。したがって、しきい値設定について忘れると、pdfをモデリングすることになりますか?ベルヌーイ分布のモデリングについて読んだことがあるので、しきい値設定と混同したと思います。しかし、しきい値がなければ、それはもうベルノイリですよね?ケースでは、シグモイド活性化関数を持つ唯一つの出力ノードを有していることだろう確率pまたは(1-P)を出力0または1
sdiabr

1
はい、@ CagdasOzgencに感謝します。もう一度試してみましょう:出力層でシグモイド関数を使用することで、pdfを直接モデリングしていますよね?どんな分布に従うか、従うことを学ぶかもしれません。
sdiabr

2
ただし、未知の係数の確率分布については学習していないため、事後予測分布については学習していません。
乱暴な均衡

11

通常、ニューラルネットワークは完全な確率密度のモデル化には使用されません。彼らの焦点は、分布の平均をモデル化することです(または決定論的な状況では、単に非線形関数です)。それにもかかわらず、ニューラルネットワークを介して完全な確率密度をモデル化することは非常に可能です。

これを行う1つの簡単な方法は、ガウシアンの場合のために、例えばあるネットワークの別の出力からの1つの出力と分散の平均を放出し、次に最小化することである機能の一部として一般的な二乗誤差の代わりにトレーニングプロセス。これは、ニューラルネットワークの最尤法です。logNy|バツ;μσ

あなたはプラグこのネットワーク毎回訓練一度、それはあなたを与えるだろう、入力として値をμσを、あなたは全体のトリプレットプラグインすることができ、Y μ σ密度にF Y | X N μをσ 任意のyの密度値を取得します。この段階で、実際のドメイン損失関数に基づいて、使用するy値を選択できます。心に留めておくべきことの一つは、あなたが放出できるように、μの出力アクティベーションは無制限でなければならないということです-バツμσyμσf(y|x)N(μ,σ)yyμ + INFながら σは正のみ活性化する必要があります。inf+infσ

一般的に、それが決定論的な関数でない限り、ニューラルネットワークで使用される標準の2乗損失トレーニングは、上記で説明した手順とほとんど同じです。ボンネットの下のA 分布を気にすることなく、暗黙的に仮定されるσと注意深く調べると- L O G N Y | X ; μ σ あなた二乗損失の式を与える(損失ガウシアン最尤推定器の機能GaussianσlogN(y|x;μ,σ))。ただし、このシナリオでは、yの代わりにy新しいx値を指定すると、毎回を放出することになります。μx

分類のための出力は次のようになります代わりの分布G U S S I N放出する単一のパラメータを有します。他の回答で指定されているように、このパラメーターは0から1の間であるため、それに応じて出力がアクティブになります。それはロジスティック関数または同じ目的を達成する何かでありえます。BernoulliGaussian01

より洗練されたアプローチは、ビショップの混合密度ネットワークです。これについては、頻繁に参照される以下の論文で読むことができます。

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf


あなたは私にそれを打ち負かした😀私はビショップのMDNを引用したかった...また、ニューラルネットワークにpdfを出力させる別の方法があり、これはもちろんベイジアンのパラダイムである。それについての答えを書きます。
DeltaIV

サーフィンの条件を予測するために使用混合密度ネットワーク上の別の楽しい紙、:icml.cc/Conferences/2005/proceedings/papers/...
マシュードゥルーリー

「トリプレット全体y、μ、σ」を「トリプレット全体x、μ、σ」に変更する必要がありますか?
moh

@moh no。xが指定され、密度には表示されません。
カグダスオズゲンク

1

私の反対意見は、最も印象的な実用的なアプリケーション(たとえば、メディアで最も多くの報道を受けるアプリケーション)では、関数でも確率でもないということです。確率的意思決定を実装します。

それだけで機能をフィットさNNのように見える表面には、キューユニバーサル近似をます。参照をください。場合によっては、特定のアクティベーション関数とガウス誤差などの特定の仮定を使用したり、ベイジアンネットワークに関する論文を読んだりすると、NNが確率分布を生成できるようです。

ただし、これはすべて方法です。NNが行うことは、意思決定をモデル化することです。車がAIによって駆動されるとき、そのNNは、その前にオブジェクトがある確率を計算しようとせず、人間である確率を計算するオブジェクトがあることを考えます。センサー入力のさまざまな種類のオブジェクトへのマッピングも計算していません。いいえ、NNはすべての入力に基づいて意思決定を下し、横向きに操縦するか、そのまま走行し続けることになっています。確率を計算するのではなく、車に何をすべきかを伝えます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.