ディープラーニングを理解するための情報ボトルネック原則の価値について、現在コンセンサスはありますか?


7

TishbyとZaslavskyは2015年に、いわゆる情報ボトルネック原理を使用してディープニューラルネットワークのいくつかの動作を理解できると主張する有名な論文を発表しました。で(2017年4月)より最近の論文、シュワルツ-Ziv符号とTishbyは特に結果の一部を可視化する、これらの請求に展開します。

2017年の後半に、Saxeらの批評論文。OpenReviewのWebサイトに投稿されました(最近の改訂は2週​​間前)。Schwartz-Ziv-Tishbyの論文で出された主張の多くは支持されない、または少なくとも主張されている一般性ではないと主張している。実際、私がそれらを正しく読んでいる場合、視覚化された結果は活性化機能の選択のアーチファクトであると彼らは主張します-理論によれば重要ではない何か。

しかし、コメントの中で、シュワルツ-ジブとティシュビーは批評が的を外していると批判的な論文に関するコメントの長いリストを見せてくれます。これに批判的な論文の著者が順番に答えますが、おそらく会話はまだ終わっていません。

情報のボトルネックの深層学習の側面についての調査プロジェクトを開始することに関心がありますが、すでに「反駁されている」ことを学ぶのに時間を浪費するのではないかと心配しています。したがって、私の質問は次のとおりです。

ディープラーニングを理解するための情報ボトルネック原理の適用性に関する現在の専門家の意見は何ですか?

特に、私がリンクしたもの以外のテーマの研究、および専門家による(直接的または間接的な)解説に興味があります。


これは活発な研究分野であり、非常に最近の論文であることは注目に値します。公開前のレビュー、ピアレビュー、および公開後の応答は、全体として、「最後の言葉」を構成するプロセスの特定のステップではなく、トピックに関する進行中の会話と見なす必要があります。あるいは、ヘーゲル的見方では、あなたが引用した対話はトライアドのテーゼとアンチテーゼの構成要素で構成されており、まだ合成に至っていません。
Sycoraxは

1
コンセンサスはありません!試してみてください。私およびディープラーニングコミュニティの他の多くの人が、さらに多くの作業を行いたいと考えています。確かに、失敗のリスクはありますが、常にそれを研究しています。「時間を浪費すること」のリスクについてはコメントできません。なぜなら、それはあなたが危機に瀕しているものに依存しているからです。かなりの個人投資、したがってより高いリスク。2年間のポスドクそれが機能する可能性は低くなりますが、失う可能性も低くなります。しかし、私はあなたがより多くの情報に基づいた投資をすることを可能にするために情報を集めることを試みることができます:-)
DeltaIV

PSそれはまた、ここでは主題外のあなたのキャリアの目標にも依存します:研究トピックとして、それは学問的キャリアにとってはるかに口当たりが良いです。しかし、業界で働きたいのであれば、現在ディープラーニングにはもっと実りあるトピックがあります。これはIMOであり、フィールドの他の人々は異なることを頼むかもしれません。
DeltaIV

回答:


1

ここで私が言うのは、圧縮が一般化のより良い下限を保証するという証明は受け入れられるということですが、この下限が実際に関連している場合は広く受け入れられていません。

たとえば、圧縮率の高いモデルでは、下限が1.0から1.5に増加する可能性がありますが、すべてのモデルがすでに2.0〜2.5で実行されている場合は関係がない可能性があります。同様に、ある程度の一般化を保証するには圧縮で十分であるが、明らかに必要ないことは明らかだと思います(たとえば、可逆ニューラルネットワークは細かい一般化を得ることができます)。

おそらく正しい結論は、理論と分析は有用な方向性であるということですが、実際のネットワークについて何か言っているかどうかは不明です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.