グラフィカルモデルとボルツマンマシンは数学的に関連していますか?


10

物理学のクラスでボルツマンマシンを使って実際にプログラミングを行ったことがありますが、それらの理論的な特性についてはよく知りません。対照的に、私はグラフィカルモデルの理論については適度な量を知っています(ローリッツェンの本Graphical Modelsの最初の数章について)。

質問:グラフィカルモデルとボルツマンマシンの間に意味のある関係はありますか?ボルツマンマシンは一種のグラフィカルモデルですか?

明らかに、ボルツマンマシンは一種のニューラルネットワークです。ニューラルネットワークの中には、数学的にグラフィカルモデルに関連しているものとそうでないものがあると聞きました。

私の質問に答えないCrossValidatedの関連質問:
これは、以前に尋ねられた前の質問に似ています:階層モデル、ニューラルネットワーク、グラフィカルモデル、ベイジアンネットワーク間の関係は何ですか?より具体的です。

さらに、その質問に対する受け入れられた回答は私の混乱を明確にしません-ニューラルネットワークの標準的なグラフィック表現のノードが確率変数を表さなくても、そのような表現が存在しないことを必ずしも意味しません。具体的には、マルコフ連鎖の典型的なグラフィカル表現のノードが確率変数ではなく可能な状態のセットをどのように表すかについて考えていますが、X i間の条件依存関係を示すグラフを作成することもできますXiバツこれは、すべてのマルコフ連鎖が実際にはマルコフ確率場であることを示しています。答えはまた、ニューラルネットワーク(おそらくボルツマンマシンを含む)は「弁別的」であると述べていますが、その主張が何を意味するかを詳しく説明することはしません。また、明らかなフォローアップの質問は「差別的ではないグラフィカルモデルですか?」対処した。同様に、受け入れられた回答リンクはケビンマーフィーのウェブサイト(実際にはベイジアンネットワークについて学ぶときに彼の博士論文の一部を読んでいます)にリンクしていますが、このウェブサイトはベイジアンネットワークのみを取り上げており、ニューラルネットワークについてはまったく触れていません。異なっています。

この他の質問はおそらく私のものに最も似ています:ニューラルネットワークをグラフィカルモデルとして数学的にモデル化します。ただし、どの回答も受け入れられず、同様に参照のみが示され、説明は説明されません(この回答など)。いつかリファレンスを理解できるようになると思いますが、今は基本的な知識レベルにいるので、できるだけ単純化した回答をいただければ幸いです。また、上位の回答(http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml)にリンクされているトロントのコースでは、これについて説明していますが、詳細については詳しく説明していません。さらに、私の質問に答える可能性がある1つの講義のノートは公開されていません。

3月25日講演13b:Belief Nets 7:43。このスライドでは、ボルツマンマシンを念頭に置いてください。そこにも、隠れたユニットと目に見えるユニットがあり、すべて確率的です。BMとSBNには、違いよりも共通点があります。9:16。最近では、「グラフィカルモデル」はニューラルネットワークの特別なカテゴリと見なされることがありますが、ここで説明する歴史では、非常に異なるタイプのシステムと見なされていました。

回答:


7

ボルツマンマシンと制限付きボルツマンマシン

AFAIKボルツマンマシンは一種のグラフィカルモデルであり、ニューラルネットワークに関連するモデルは制限付きボルツマンマシン(RBM)です。

機械学習A確率論的観点からのボルツマンマシンと制限付きボルツマンマシンの違い ここに画像の説明を入力してください

RBMとニューラルネットワークの比較

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
vhσ

条件付き確率はネットワークレイヤーと同じ形式で計算されるため、RBMのトレーニング済みの重みは、ニューラルネットワークの重みとして、またはトレーニングの開始点として直接使用できます。

RBM自体は、方向性がなく、条件付きの独立性が明確に定義されており、独自のトレーニングアルゴリズム(対照的な発散など)を使用しているため、一種のニューラルネットワークよりもグラフィカルモデルに近いと思います。


2
いいですね、これは素晴らしいリファレンスを備えた本当に素晴らしい答えです。また、マーフィー教授の本をもっと早く読みたいと思っています。この徹底的な回答にお時間をいただきありがとうございます。
Chill2Macht 2016

2
@Williamがお役に立てて嬉しい:)
dontloo

2
v=h=σ=

2
@ GeoMatt22ありがとう、答えを更新しました。
dontloo 2016

3

これは、受け入れられた回答を確認/検証するだけです。ボルツマンマシンは、実際にはグラフィカルモデルの特別なケースです。具体的には、この質問は、PPにアドレス指定されコラー、フリードマン、の127から127まで。確率的グラフィカルモデル:原則とテクニックで、ボックス4.C.

マルコフネットワークモデルの最も初期のタイプの1つは、相互作用する原子のシステムを含む物理システムのエネルギーのモデルとして統計物理学で最初に生じたイジングモデルです...イジングモデルに関連するのは、ボルツマンマシン分布です。結果として生じるエネルギーは、イジングモデルの観点から再定式化できます(演習4.12)。

Isingモデルは、もともと統計力学の文献の概念でしたが、グラフィカルモデルとしてどのように定式化できるかについては、例3.1。、セクション3.3のWainwright、Jordan、Graphical Models、Exponentialの 41〜43ページに詳しく記載されています。家族、および変分推論

どうやらIsingモデルは、少なくともSteffen Lauritzenが彼の本の序文と序文「Graphical Models」の両方で述べたことに基づいて、1970年代後半から1980年代初頭にかけてグラフィカルモデルの分野の基礎に役立ちました。この解釈は、Koller and Friedmanの上記の本のセクション4.8でもサポートされているようです。

Isingモデルからのボルツマンマシンの開発は、KollerとFriedmanの同じセクションに基づいて独立した出来事であった可能性もあり、「ボルツマンマシンは最初にHintonとSejnowski(1983)によって提案された」と主張しています。イジングモデルの一般化としてのマルコフランダムフィールドの開発における最初の作業の後に発生しましたが、その論文の背後にある作業は1983年よりずっと前に開始された可能性があります。


1年以上前にこの質問を書いたとき、この関係に関する私の混乱は、物理学の文献で、Isingモデルとニューロンのボルツマン機械モデルの両方に最初に出会ったという事実から生じました。KollerとFriedmanが述べているように、Isingモデルと関連する概念に関する統計物理学コミュニティ内の文献は本当に膨大です。

私の経験では、グラフモデルを研究している統計学者やコンピューター科学者がフィールドが統計力学にどのように関連しているかについて言及するという意味で、それはかなり孤立しています。それを悪用しようとします。(したがって、他の分野へのそのような関連があるかもしれないという考えに疑問を抱き、混乱させられます。)

イジングモデルとボルツマンマシンの両方に対する物理学者の視点の例については、私が最初にそれを学んだコースの教科書を参照してください。また、私が正しく覚えていれば、上記で引用したジョーダンとウェインライトの記事でも説明されている平均フィールド法についても触れています。


2
接続は非常に薄くなる可能性があり、主に統計力学の基礎である分割関数の使用に基づいており、内積の和の指数がとられることに基づいています。softmax関数もこの形式を使用するため、命名法は用語のレガシーを維持し、多くの物理学者がMLで作業します(例:Christopher Bishop)。
Vass
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.