回答:
人工ニューラルネットワークの重み(ANN)のMLE推定は確かに可能です。実際、それは完全に典型的なものです。分類問題の場合、標準の目的関数はクロスエントロピーです。これは、二項モデルの負の対数尤度と同じです。回帰問題の場合、OLS回帰のMLEに対応する残差二乗誤差が使用されます。
しかし、古典的な統計で導出されたMLEの優れた特性がニューラルネットワークのMLEにも当てはまると仮定すると、いくつかの問題があります。
ANN推定には一般的な問題があります。単層ANNにも多くの対称的な解決策があります。隠れ層の重みの符号を逆にすることと、隠れ層の活性化パラメータの符号を逆にすることは、両方とも同等の可能性を持っています。さらに、非表示のノードを並べ替えることができ、これらの並べ替えも同じ可能性があります。識別可能性を放棄していることを認めなければならない限り、これは結果です。ただし、識別可能性が重要でない場合は、これらの代替ソリューションが単なる相互の反映および/または置換であることを単純に受け入れることができます。
これは、OLS回帰などの統計におけるMLEの古典的な使用法とは対照的です。OLS問題は凸であり、設計行列がフルランクの場合は厳密に凸です。強い凸性は、単一の固有の最小化子があることを意味します。
ANNは、制約のないソリューションを使用する場合、データに過剰適合する傾向があります。重みは、原点から離れて信じられないほど大きな値になり、一般化や新しいデータの予測があまり正確にならない傾向があります。重み減衰または他の正則化方法を課すと、重み推定値がゼロに向かって縮小する効果があります。これは必ずしも(1)の不確定性の問題を解決するわけではありませんが、ネットワークの一般化を改善できます。
損失関数は非凸であり、最適化はグローバルに最適ではないローカルに最適なソリューションを見つけることができます。または、これらのソリューションは、いくつかの最適化方法が停止するall点です。この論文の結果は、最新の推定方法がこの問題を回避していることを示しています。
古典的な統計設定では、エラスティックネット、または正則化などのペナルティフィット手法により、凸がランク不足(つまり、非凸)問題になる可能性があります。この事実は、(1)の順列の問題により、ニューラルネットワークの設定には拡張されません。パラメーターのノルムを制限しても、重みを並べ替えたり、符号を対称的に反転しても、パラメーターベクトルのノルムは変更されません。可能性も変わりません。したがって、置換または反射されたモデルの損失は同じままであり、モデルはまだ識別されていません。
分類問題では、尤度を最大化することがニューラルネットワーク(教師ありモデルと教師なしモデルの両方)をトレーニングする最も一般的な方法です。
実際には、通常、負の対数尤度(等価MLE)を最小化します。負の対数尤度を使用する唯一の制約は、確率分布として解釈できる出力層を持つことです。そのためには、通常、softmax出力層が使用されます。ニューラルネットワークコミュニティでは、負の対数尤度はクロスエントロピーと呼ばれることがあります。もちろん、正則化の用語を追加することができます(また、パラメーターの事前分布として解釈できる場合があります。その場合、最大事後確率(MAP)を探しています)。