RBMの持続的なコントラストの相違

制限付きボルツマンマシンに永続的CD学習アルゴリズムを使用する場合、最初の反復でデータポイントからギブスサンプリングチェーンを開始しますが、通常のCDとは異なり、後続の反復ではチェーンから開始しません。代わりに、前の反復のギブスサンプリングチェーンが終了したところから開始します。

通常のCDアルゴリズムでは、各反復でデータポイントのミニバッチが評価され、それらのデータポイント自体から始まるギブスサンプリングチェーンが計算されます。

永続CDでは、各データポイントのギブスサンプリングチェーンを維持する必要がありますか？それとも、現在の反復で現在評価されていないデータポイントから始まったギブスサンプリングチェーンのミニバッチも保持する必要がありますか？

各データポイントのギブスサンプリングチェーンを維持するのは面倒すぎるように思えますが、一方で、現在のサンプルの信号を、現在のところから始まっていない長いギブスチェーンの後の信号と比較することは不適切のようです。サンプル。

machine-learning neural-networks rbm

— アンジェロフ
ソース

@subha直感に反するように見えますが、実際には、さまざまな入力データに使用される単一のチェーンであることは非常に明らかです。また、見とるdeeplearning.net/tutorial/rbm.htmlを。そこで行われていることは、「観察された例ごとにチェーンを再開しないこと」であると述べられています。deeplearning.netには、多くの優れた例と簡単な説明があります。

— Angelorf 14

@Angelorfこれらの指示を確認してください。バッチバージョンを使用しています。したがって、最初のバッチでv0-h0-v1-h1を見つけます。今度は+ veと-veのサンプルを見つけ、勾配を更新します。次に、次のバッチでは、2番目のバッチのh0の代わりに、最初のバッチのh1からgibbsチェーンが開始されます。私は正しいですか？

— subha 2014

@subhaそれは正しいと思いますが、それはまさに私が元の投稿で求めていることです。

— Angelorf 14

そのようにした場合、入力データを適切に再構築するにはどうすればよいですか？私が試しました、それは適切なデータを再構築していません。

— subha 2014

回答:

これを説明する元の論文はここにあります

セクション4.4では、アルゴリズムを実装する方法について説明します。彼らが最初に発見した最良の実装は、マルコフチェーンをリセットせず、勾配推定ごとに各マルコフチェーンで1つの完全なギブズ更新を実行し、ミニのトレーニングデータポイントの数と等しい数のマルコフチェーンを使用することでした。バッチ。

セクション3は、PCDの背後にある主要なアイデアについての直感を与えるかもしれません。

— チェアベンダー
ソース

チェアベンダーが述べるように、彼らは負の勾配の部分のチェーンをリセットしません。

この背後にある直感は何ですか？元の論文では、RBM については、ポイントごとの分布（信念ネットワークに必要な場合がある）ではなく、サンプリングする必要がある分布が1つしかないため、リセットチェーンはありません。ポイントごとのチェーンを覚えておく必要がある一部のモデルについては、その通りです。

対照的な方法の場合：更新の否定的な用語は、いくつかの分布によると予想またはサンプルを超えていますが、RBMには1つの分布（ポストバーンイン）しかありません。

— ベルゼ-b
ソース