この質問は少し奇妙に見えるかもしれません。私は情報理論についていくつかの自習をしていて、ディープラーニングについてさらに正式な調査を行うことにしました。私が説明しようとするので、我慢してください。私はMNISTの大きな「トレーニング」サブセットをモルモットとして使用しました。
1)MNISTのすべての画像を「白黒」に変換(ピクセル値は0または1のみ)
2)すべてのデータ画像を合計してピクセルのヒストグラムを作成しました-データセットで各ピクセルが1の値を取得する回数をカウントしました
3)「真の」確率分布の推定値を取得するための正規化されたヒストグラム
4)これから、私は次の確率分布を得ました(matplotlibでヒートマップとして示されています):
[
5)今私はエントロピーを計算して得た:ビット
6)デービッドマッケイの情報理論の本によると、ニューラルネットワークをノイズの多いチャネルとして解釈し、各ニューロンが2ビットの容量を持つと見なすことができます。彼はこの考えを注意して使うように述べていますが。彼の本の第40章http://www.inference.org.uk/itila/book.html)
7)したがって、大まかな見積もりとして(そして注意して)、このMNISTトレーニングセット(190/2)のラベルをエンコードできるようにするには、95ニューロンのニューラルネットワークが必要になると言えます。8)これで、私の質問に:
これが非常に「エンベロープの逆」計算である場合でも、ラベリングを学習できるニューラルネットワークは、少なくとも95ニューロンの球場にあるべきではないでしょうか。たとえば、99%の精度を得るために21840パラメータを持つニューラルネットワークが必要なのはなぜですか?(MNISTのPyTorchの例の1つを考慮:https : //github.com/pytorch/examples/blob/master/mnist/main.py)