データサイエンス information-theory

ディープラーニングモデルは、データセットの推定エントロピーに必要な容量をはるかに超えていますか？

この質問は少し奇妙に見えるかもしれません。私は情報理論についていくつかの自習をしていて、ディープラーニングについてさらに正式な調査を行うことにしました。私が説明しようとするので、我慢してください。私はMNISTの大きな「トレーニング」サブセットをモルモットとして使用しました。 1）MNISTのすべての画像を「白黒」に変換（ピクセル値は0または1のみ） 2）すべてのデータ画像を合計してピクセルのヒストグラムを作成しました-データセットで各ピクセルが1の値を取得する回数をカウントしました 3）「真の」確率分布の推定値を取得するための正規化されたヒストグラム 4）これから、私は次の確率分布を得ました（matplotlibでヒートマップとして示されています）： [ 5）今私はエントロピーを計算して得た：ビット191191191 6）デービッドマッケイの情報理論の本によると、ニューラルネットワークをノイズの多いチャネルとして解釈し、各ニューロンが2ビットの容量を持つと見なすことができます。彼はこの考えを注意して使うように述べていますが。彼の本の第40章http://www.inference.org.uk/itila/book.html） 7）したがって、大まかな見積もりとして（そして注意して）、このMNISTトレーニングセット（190/2）のラベルをエンコードできるようにするには、95ニューロンのニューラルネットワークが必要になると言えます。8）これで、私の質問に：これが非常に「エンベロープの逆」計算である場合でも、ラベリングを学習できるニューラルネットワークは、少なくとも95ニューロンの球場にあるべきではないでしょうか。たとえば、99％の精度を得るために21840パラメータを持つニューラルネットワークが必要なのはなぜですか？（MNISTのPyTorchの例の1つを考慮：https : //github.com/pytorch/examples/blob/master/mnist/main.py）

7 neural-network deep-learning information-theory

タグ付けされた質問 「information-theory」

タグ付けされた質問「information-theory」