1
ディープラーニングモデルは、データセットの推定エントロピーに必要な容量をはるかに超えていますか?
この質問は少し奇妙に見えるかもしれません。私は情報理論についていくつかの自習をしていて、ディープラーニングについてさらに正式な調査を行うことにしました。私が説明しようとするので、我慢してください。私はMNISTの大きな「トレーニング」サブセットをモルモットとして使用しました。 1)MNISTのすべての画像を「白黒」に変換(ピクセル値は0または1のみ) 2)すべてのデータ画像を合計してピクセルのヒストグラムを作成しました-データセットで各ピクセルが1の値を取得する回数をカウントしました 3)「真の」確率分布の推定値を取得するための正規化されたヒストグラム 4)これから、私は次の確率分布を得ました(matplotlibでヒートマップとして示されています): [ 5)今私はエントロピーを計算して得た:ビット191191191 6)デービッドマッケイの情報理論の本によると、ニューラルネットワークをノイズの多いチャネルとして解釈し、各ニューロンが2ビットの容量を持つと見なすことができます。彼はこの考えを注意して使うように述べていますが。彼の本の第40章http://www.inference.org.uk/itila/book.html) 7)したがって、大まかな見積もりとして(そして注意して)、このMNISTトレーニングセット(190/2)のラベルをエンコードできるようにするには、95ニューロンのニューラルネットワークが必要になると言えます。8)これで、私の質問に: これが非常に「エンベロープの逆」計算である場合でも、ラベリングを学習できるニューラルネットワークは、少なくとも95ニューロンの球場にあるべきではないでしょうか。たとえば、99%の精度を得るために21840パラメータを持つニューラルネットワークが必要なのはなぜですか?(MNISTのPyTorchの例の1つを考慮:https : //github.com/pytorch/examples/blob/master/mnist/main.py)