MLEを使用してニューラルネットワークの重みを推定できますか？

23

統計とモデルのことについて勉強し始めたところです。現在、私の理解では、MLEを使用してモデルの最適なパラメーターを推定することです。ただし、ニューラルネットワークがどのように機能するかを理解しようとすると、通常、代わりに別のアプローチを使用してパラメーターを推定するようです。なぜMLEを使用しないのか、またはMLEをまったく使用できないのですか？

maximum-likelihood neural-networks

— トーア
ソース

16

人工ニューラルネットワークの重み（ANN）のMLE推定は確かに可能です。実際、それは完全に典型的なものです。分類問題の場合、標準の目的関数はクロスエントロピーです。これは、二項モデルの負の対数尤度と同じです。回帰問題の場合、OLS回帰のMLEに対応する残差二乗誤差が使用されます。

しかし、古典的な統計で導出されたMLEの優れた特性がニューラルネットワークのMLEにも当てはまると仮定すると、いくつかの問題があります。

ANN推定には一般的な問題があります。単層ANNにも多くの対称的な解決策があります。隠れ層の重みの符号を逆にすることと、隠れ層の活性化パラメータの符号を逆にすることは、両方とも同等の可能性を持っています。さらに、非表示のノードを並べ替えることができ、これらの並べ替えも同じ可能性があります。識別可能性を放棄していることを認めなければならない限り、これは結果です。ただし、識別可能性が重要でない場合は、これらの代替ソリューションが単なる相互の反映および/または置換であることを単純に受け入れることができます。

これは、OLS回帰などの統計におけるMLEの古典的な使用法とは対照的です。OLS問題は凸であり、設計行列がフルランクの場合は厳密に凸です。強い凸性は、単一の固有の最小化子があることを意味します。
ANNは、制約のないソリューションを使用する場合、データに過剰適合する傾向があります。重みは、原点から離れて信じられないほど大きな値になり、一般化や新しいデータの予測があまり正確にならない傾向があります。重み減衰または他の正則化方法を課すと、重み推定値がゼロに向かって縮小する効果があります。これは必ずしも（1）の不確定性の問題を解決するわけではありませんが、ネットワークの一般化を改善できます。
損失関数は非凸であり、最適化はグローバルに最適ではないローカルに最適なソリューションを見つけることができます。または、これらのソリューションは、いくつかの最適化方法が停止するall点です。この論文の結果は、最新の推定方法がこの問題を回避していることを示しています。
古典的な統計設定では、エラスティックネット、または正則化などのペナルティフィット手法により、凸がランク不足（つまり、非凸）問題になる可能性があります。この事実は、（1）の順列の問題により、ニューラルネットワークの設定には拡張されません。パラメーターのノルムを制限しても、重みを並べ替えたり、符号を対称的に反転しても、パラメーターベクトルのノルムは変更されません。可能性も変わりません。したがって、置換または反射されたモデルの損失は同じままであり、モデルはまだ識別されていません。 $L^1$ $L^2$

— シコラックス、モニカを復職させる
ソース

2

私はあなたの言うことと違うようにお願いします。対称性から生じるさまざまな局所的最小値はすべて同じ品質であるため、それについてまったく心配する必要はありません。おそらくあなたが言いたいのは、ANNが凸損失関数を持たないことです。これにより、最適化がより複雑になり、グローバルな最適値を見つけることが保証されません。しかし、ANNには実際にはそれほど多くのローカルミニマムの問題はなく、むしろサドルポイントの問題があるというかなりの証拠が最近ありました。たとえばarxiv.org/abs/1412.6544を参照してください。

— -bayerj

11

分類問題では、尤度を最大化することがニューラルネットワーク（教師ありモデルと教師なしモデルの両方）をトレーニングする最も一般的な方法です。

実際には、通常、負の対数尤度（等価MLE）を最小化します。負の対数尤度を使用する唯一の制約は、確率分布として解釈できる出力層を持つことです。そのためには、通常、softmax出力層が使用されます。ニューラルネットワークコミュニティでは、負の対数尤度はクロスエントロピーと呼ばれることがあります。もちろん、正則化の用語を追加することができます（また、パラメーターの事前分布として解釈できる場合があります。その場合、最大事後確率（MAP）を探しています）。

— AdeB
ソース