ジェフリーヒントンは、ニューラルネットワークで「カプセル理論」と呼ぶものを研究しています。これは何であり、どのように機能しますか?
ジェフリーヒントンは、ニューラルネットワークで「カプセル理論」と呼ぶものを研究しています。これは何であり、どのように機能しますか?
回答:
まだ公開されていないようです。オンラインで入手可能な最高のものは、この講演のスライドです。(数人はこのリンクで以前の講演を参照していますが、悲しいことに、この回答を書いている時点では壊れています。)
私の印象は、それがニューラルネットワーク内のサブネットワークの作成を形式化および抽象化する試みだということです。つまり、標準のニューラルネットワークを見ると、レイヤーは完全に接続されています(つまり、レイヤー1のすべてのニューロンはレイヤー0のすべてのニューロンにアクセスし、レイヤー2のすべてのニューロンからアクセスされます)。しかし、これは明らかに有用ではありません。代わりに、たとえば、それぞれが個別のタスクに特化したn個の並列スタックレイヤー(「カプセル」)を持っている場合があります(正常に完了するには複数のレイヤーが必要になる場合があります)。
結果を正しく想像していれば、このより洗練されたグラフトポロジは、結果のネットワークの有効性と解釈可能性の両方を簡単に高めることができるもののように思えます。
前の回答を補足するために、これに関する論文があります。これは、ほとんどが生データから低レベルのカプセルを学習することですが、紹介セクションでヒントンのカプセルの概念を説明しています:http : //www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
上記の回答のMITトークへのリンクが再び機能しているように見えることも注目に値します。
ヒントンによれば、「カプセル」は、エンティティが制限されたドメイン内に存在するかどうかを示す「インスタンス化パラメーター」と、それに対するエンティティのポーズを指定する「ポーズパラメーター」のベクトルの両方を出力するレイヤー内のニューロンのサブセットです正規バージョン。
低レベルのカプセルによって出力されるパラメーターは、高レベルのカプセルによって表されるエンティティのポーズの予測に変換されます。予測が一致し、独自のパラメーターを出力すると、アクティブになります(高レベルのポーズパラメーターは、受信した予測の平均です)。
ヒントンは、この高次元の同時検出が脳内のミニカラム組織の目的であると推測しています。彼の主な目標は、より深い層がポーズに関する情報を失う、畳み込みネットワークで使用される最大プーリングを置き換えることです。
カプセルネットワークは、マシン上の人間の脳のヒントンの観察を模倣しようとします。その動機は、ニューラルネットワークがパーツの空間的関係のより良いモデリングを必要としていたという事実から生じています。カプセルネットは、共存をモデル化する代わりに、相対的な配置を無視して、階層に沿ったさまざまなサブパーツのグローバルな相対変換をモデル化しようとします。これは、他の人が上で説明したように、不変性と不変性のトレードオフです。
したがって、これらのネットワークには、視点/方向認識が多少含まれており、異なる方向に異なる反応を示します。このプロパティは、潜在空間の特徴に解釈可能なポーズ固有の詳細が含まれているため、ポーズ推定を実行する機能を導入しながら、それらをより差別化します。
これはすべて、ネットワーク内のさらに別のレイヤーを連結するのではなく、カプセルと呼ばれるネストされたレイヤーをレイヤー内に含めることによって実現されます。これらのカプセルは、ノードごとにスカラーではなくベクトル出力を提供できます。
この論文の重要な貢献は、標準の最大プーリングをスマートな戦略に置き換える動的ルーティングです。このアルゴリズムは、カプセル出力に平均シフトクラスタリングを適用して、出力が上のレイヤーの適切な親にのみ送信されるようにします。
著者はまた、貢献度をマージン損失と再構築損失と結び付けます。これは同時に、タスクをより良く学習し、MNISTの最新の結果を示すのに役立ちます。
最近の紙が命名されたカプセルの間の動的ルーティング とarXivの上で提供されています:https://arxiv.org/pdf/1710.09829.pdf。
論文のカプセル間の動的ルーティングに基づいて
カプセルは、アクティビティベクトルがオブジェクトやオブジェクトパーツなどの特定のタイプのエンティティのインスタンス化パラメーターを表すニューロンのグループです。アクティビティベクトルの長さを使用して、エンティティが存在する確率と、インスタンス化パラメーターを表すその方向を表します。1つのレベルのアクティブなカプセルは、変換マトリックスを介して、より高いレベルのカプセルのインスタンス化パラメーターを予測します。複数の予測が一致すると、より高いレベルのカプセルがアクティブになります。差別的に訓練された多層カプセルシステムは、MNISTで最先端のパフォーマンスを達成し、高度に重なり合う数字を認識することで畳み込みネットよりもかなり優れていることを示します。これらの結果を達成するために、合意によるルーティングの反復メカニズムを使用します。低レベルのカプセルは、その出力が低レベルのカプセルからの予測と大きなスカラー積を持つアクティビティベクトルを持つ高レベルのカプセルに出力を送信することを好みます。論文の最終版は、査読者のコメントを取り入れるために改訂中です。
畳み込みニューラルネットワークの主な利点の1つは、変換に対する不変性です。ただし、この不変性には価格が伴うため、異なる機能が相互にどのように関連しているかは考慮されません。たとえば、顔の写真がある場合、CNNは口の特徴と鼻の特徴の関係を区別するのが困難になります。この効果の主な理由は、最大プール層です。最大のプーリングレイヤーを使用すると、口とノイズの正確な位置が失われ、それらが互いにどのように関連しているかを言うことができないためです。
カプセルは、2つの方法でCNNの利点を維持し、この欠点を修正しようとします。
カプセルが適切に機能している場合、視覚エンティティが存在する確率は局所的に不変です。カプセルによって覆われた限られた領域内の可能性のある多様体上をエンティティが移動しても変化しません。
言い換えれば、カプセルは、口や鼻のように探している特定の特徴の存在を考慮に入れます。このプロパティは、カプセルがCNNと同じ変換不変であることを確認します。