問題が凸または準凸の場合、1つのグローバル最小値があります。
ニューラルネットワークの構築中の凸型の「ビルディングブロック」について(コンピューターサイエンスバージョン)
言及できるものはいくつかあると思います。
max(0、x)-凸で増加
log-sum-exp-各パラメーターが凸で増加している
y = Axはアフィンであり、(A)で凸であるため、増加または減少する可能性があります。y = Axはアフィンであり、(x)が凸であるため、増加または減少する可能性があります。
あいにく、(A、x)では凸ではありません。不定の2次形式のように見えるからです。
通常の数学離散畳み込み(「通常」では繰り返し信号で定義されることを意味します)Y = h * X hまたは変数Xのアフィン関数であるように見えます。したがって、変数hまたは変数Xの凸です。両方の変数について- hとXがスカラーの場合、畳み込みは不定の2次形式に減少するため、そうは思いません。
max(f、g)-fとgが凸の場合、max(f、g)も凸です。
ある関数を別の関数に置き換えてコンポジションを作成すると、y = h(g(x)、q(x))の凸の部屋に残りますが、hは凸であり、各引数で増加(減少しない)する必要があります。 ...
非凸面でニューラルネットワークが機能する理由:
たたみ込みY = h * Xは、hで必要な増加ではないと思います。そのため、カーネルに関する追加の仮定を使用しない場合、畳み込みを適用した直後に凸最適化から外に出ます。だから、作曲にはまったく問題はありません。
また、上記のようにカップルパラメーターを考慮すると、畳み込みと行列乗算は凸ではありません。したがって、行列乗算には必ず問題があります。それは、パラメーター(A、x)の非凸演算です。
y = Axは(A、x)で準凸になりますが、追加の仮定も考慮する必要があります。
あなたが同意しないか、余分な考慮事項がある場合はお知らせください。この質問は私にとっても非常に興味深いものです。
ps max-pooling-maxを選択してダウンサンプリングすると、アフィン事前合成(必要なブロックをプルする)による要素ごとのmax操作の一部の変更のように見え、私にとっては凸に見えます。
その他の質問について
いいえ、ロジスティック回帰は凸面でも凹面でもありませんが、対数凹です。これは、対数を適用した後、説明変数に凹関数があることを意味します。したがって、ここで最大対数尤度のトリックは素晴らしいです。
グローバルミニマムが1つだけではない場合。極小値間の関係については何も言えません。または、少なくとも数学のこの領域はグローバルな過小評価に基づいているため、凸最適化とその拡張機能を使用することはできません。
たぶん、あなたはこれについて混乱しています。本当にそのようなスキーマを作成する人々は単に「何か」をし、「何か」を受け取るからです。残念ながら、非凸最適化(一般的に)に取り組むための完璧なメカニズムがないためです。
しかし、ニューラルネットワークの横にも、よりシンプルなものがある-のように解決できない非は、線形最小二乗- https://youtu.be/l1X4tOoIHYo?t=2992(EE263、L8、50:10)