入力が条件付きで独立している場合、超平面はデータを最適に分類します-なぜですか?


9

ディープラーニングと情報ボトルネック原理と呼ばれる論文では、著者はセクションII A)で次のように述べています。

単一ニューロンは、入力空間超平面のみを実装できるため、線形的に分離可能な入力のみを分類します。入力が条件に依存しない場合、超平面はデータを最適に分類できます。u=wh+b

これを示すために、彼らは以下を導き出します。ベイズの定理を使用すると、次のようになります。

(1)p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y))

ここで、、入力されるYはクラスであり、Y '(私は、仮定予測クラスであり、Yは'定義されていません)。続けて、彼らは次のように述べています:xyyy

(2)p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj)

ここで、は入力次元で、nはわかりません(ここでも、両方とも未定義です)。シグモイドアクティベーション関数σ u = 1のシグモイドニューロンを考えるNnσ(u)=11+exp(u)uwj=logp(xj|y)p(xj|y)b=logp(y)p(y)hj=np(xj)

w,b,h

  1. (1)ベイズの定理を使用してどのように導出されますか?
  2. n
  3. hj=np(xj)

yy


np(xj)

回答:


5

短い論文に欠けている詳細については申し訳ありませんが、尤度比検定とS字型ニューロンの間のこれらの関係と接続は確かに新しいものではなく、教科書(たとえばBishop 2006)で見つけることができます。私たちの論文では、「N」は入力次元であり、「n」はテストサンプルサイズです(SNRがsqrt(n)のように増加するという仮定の下で実際に入力SNRに変換されます)。シグモイド関数への接続は、クラスの後部として、ベイズ規則を介して行われます。本書の残りの部分、および2017年に発行された新しいより重要な文書には、実際にこれに依存するものはありません。

ナフタリ・ティシュビー


2
ここでこれを明確にしていただきありがとうございます。興味のある読者がソースを探すことができるように、完全な引用を書くことはこのコミュニティの標準的な慣行です。ビショップ(2006)のためにこれをしていただけませんか?
mkt-モニカを2017年

4

のために1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

そしてそこから、最終的な形式に到達するための対数の特性だけです(この時点で十分に明確になるはずです。そうでない場合はお知らせください)。


4

これは、関心のあるバイナリ変数がある場合に適用されるベイズの定理の特別な形式を作成者が使用しているモデルセットアップです。彼らはまず、このベイズの定理の特殊な形式を方程式(1)として導出し、次に、方程式(2)の条件がネットワークに指定された線形形式に導くことを示します。後者の方程式以前の条件から導出されたものではないことに注意することが重要です。むしろ、それはネットワークに使用している線形形式の条件です。


yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

したがって、この条件の下では、事後形式が得られます。

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

nxy


n

ありがとう-この追加情報を反映するように回答を編集しました。
ベン-モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.