彼は「ネットワークの効果的な複雑さ」と言います。彼は実際にネットワークの重みの大きさについて言及しています。これは最小記述長原理に関して理解できます。しかし、それに入る前に、直感は、重みが大きくなればなるほど、ネットワークが適合できる機能の種類が増えるため、自由度が高くなる(そして効果的な複雑さが増す)ということです。
その章で、彼は正則化について話している。正則化は、重みをできるだけ小さくすることを要求することにより、過剰適合のリスクを効果的に減らす技術である。一般に、
p(D|w)=∏np(tn|xn,w)=∏nexp(β2[tn−y(xn,w)]2)/ZD(β)
。ここで、はアルゴリズムを特徴付けるすべてのパラメーターを含むベクトルで、は正規化定数です。この式で対数尤度を最大化すると、ML推定値が得られます。ここで、正規化子として機能し、分類器の複雑さを制御することにより過剰適合を回避するのに役立つパラメーターに事前分布を追加します。具体的には、パラメータがガウス分布であると仮定するのが自然な場合、
wZD(β)
p(w)=exp(−α||w||22)/ZW(α)
MAPとして定義されます。ベイズの定理を使用して、
argmaxwp(w|D)
p(w|D)=p(D|w)p(w)
上記の式を置き換えて、対数を取ると、(は依存しません上の)
Zw
argminw∑nβ2[tn−y(xn,w)]2+α2∑iw2i
より一般的には、MAPの推定値は次と同等であることがわかっています。
wMAP=argminw−log2P(D|w)−log2(w)
式の右側は、分類子を記述するのに必要なビット数として解釈できます。最初の項は、トレーニングデータでネットワークが行うエラーをコード化するために必要なビット数を表します。2番目は、重みのコード化に必要なビット数を表します。
したがって、MAP推定値は、可能な限り最もコンパクトな表現を選択することと同等です。つまり、トレーニングデータを可能な限り忠実に考慮し、最小ビット数で表現できる重みのセットを探します。
これはバイアス/分散問題の別の形式であることに注意してください。重みが大きいほど、最初の項が低くなります。これは、ネットワークがトレーニングデータによりよく適合する(オーバーフィット)ためです。しかし同時に、重みの複雑さが増します。重みが小さいほど、ネットワークの複雑さは小さくなりますが、エラー項(バイアス)は高くなります。ネットワークのエラーをコーディングするために必要なビット数が多いほど。
これが彼が何を指しているのかについての十分な考えをあなたに与えることを願っています。
PS進行中の議論にもっと長い議論を追加する多分私はあなたを誤解しています。最後に自分自身を説明してみてください。
重み平均の事前分布は、近似する関数についての仮定を表します。事前分布(つまり重み)が大きいほど、ガウス分布は広くなります。つまり、ネットワークに適合すると考えられる構成が多くなります。
回帰のケースを考えてみましょう(私が言及した論文のように)。低い一般化エラーは、ネットワークが実際の値に非常に近い見えないサンプルをマッピングできることを意味します。直線を当てはめている場合は、1次多項式で十分です(複雑度が低い)。これで、データを高次の多項式で近似することもできます(高次の係数をゼロとは異なるようにします)。より複雑な曲線のために振動を許容するため、ネットワークの複雑さはより高くなります。それにもかかわらず、高次の項に対応する係数が十分に低い場合、ネットワークは直線を非常によく近似できるため、一般化が良好になります。
したがって、MDLの重要なポイントは、一般化エラーを最小限に抑えることができる限り、重みをできるだけ小さくすることです。
最後に、「モデルがオーバーフィットし始めると、他の機能をモデル化する能力が増加するという議論がまだ面倒です。オーバーフィットするモデルは新しいものに適用するために一般化できないため、それはまったく逆だと思います。情報。"。はい、他のより複雑な関数をモデル化できますが、手元の関数を適切にモデル化できません。本の図5.12では、重量のサイズが大きくなるにつれて、誤差が最初に減少します(バイアスの減少)。再び増加し始める特定の時点まで(一般化の減少、過剰適合)。