ニューラルネットワークのmaxoutユニットが何をするのか説明できますか?彼らはどのように機能し、従来のユニットとどのように違いますか?
Goodfellow らによる 2013年の「Maxout Network」ペーパーを読みました。(ヨシュアベンジオ教授のグループから)、しかし、私はそれをよく理解していません。
ニューラルネットワークのmaxoutユニットが何をするのか説明できますか?彼らはどのように機能し、従来のユニットとどのように違いますか?
Goodfellow らによる 2013年の「Maxout Network」ペーパーを読みました。(ヨシュアベンジオ教授のグループから)、しかし、私はそれをよく理解していません。
回答:
maxoutレイヤーは、アクティベーション関数が入力の最大値であるレイヤーです。論文で述べたように、2つのmaxoutユニットを持つMLPでさえ、どんな関数にも近似できます。maxoutのパフォーマンスが優れている理由についてはいくつかの理由がありますが、主な理由は次のとおりです。
ドロップアウトは、モデルの平均化の形と考えることができます。モデルの平均化では、反復ごとにランダムなサブネットワークが訓練され、最終的にはそのような異なるランダムなネットワークの重みが平均化されます。重みを明示的に平均化できないため、近似が使用されます。この近似は
、maxoutの線形ネットワークの場合に正確です
。maxoutレイヤーへの入力はドロップされません。したがって、データポイントの最大値を出力する入力のIDは変更されません。したがって、ドロップアウトはMLPの線形部分でのみ発生しますが、maxoutレイヤーのために任意の関数を近似できます。
ドロップアウトは線形部分でのみ発生するため、平均化近似が線形ネットワークに対して正確であるため、これによりモデルの平均化がより効率的になると推測されます。
maxoutユニットは、最大k個の区分的線形凸関数を学習できます。1
したがって、kが2の場合、ReLU、absolute ReLU、leaky ReLUなどを実装できます。または、新しい関数の実装を学習できます。kを10とすると、凸関数を近似的に学習することさえできます。
kが2の場合:
Maxoutニューロンは関数計算します。ReLUとLeaky ReLUはどちらもこの形式の特殊なケースです(たとえば、ReLUの場合、)。したがって、MaxoutニューロンはReLUユニットのすべての利点を享受し(動作の線形領域、飽和なし)、その欠点はありません(ReLUが消滅する)。
ただし、ReLUニューロンとは異なり、すべての単一ニューロンのパラメーター数が2倍になり、パラメーターの総数が多くなります。2
詳細はここで読むことができます:
1. DLブック
2. http://cs231n.github.io/neural-networks-1