なぜオートエンコーダデコーダは通常、エンコーダとは逆のアーキテクチャなのですか?


7

私が見たすべてのオートエンコーダアーキテクチャは、主にデコーダがエンコーダの逆にすぎないという同様のアーキテクチャを持っています。オートエンコーダの目的が低次元の特徴学習である場合、なぜデコーダは単純ではないのですか?例は線形変換ですFWここで、は観測値による特徴行列(つまり、ボトルネック)であり、は学習された重み行列で、を元の入力特徴サイズにマップします。複数の隠れ層を持つディープオートエンコーダーの場合、上記の例のデコーダーは、エンコーダーと比較して容量が低くなります。FfWF

私の直感は次のとおりです。

デコーダーがシンプルな場合、自動エンコーダーはボトルネックでより高品質の機能を学習して強制的に補正します。逆に、デコーダーの表現能力が高い場合、学習不足のボトルネックを出力の再構成に効果的にマッピングできます。この場合、再構成エラーは低くなる可能性がありますが、必ずしも学習された機能が実際に優れているという意味ではありません。

私のアプリケーション(グラフでの機能学習)では、単純なデコーダーの方が、エンコーダーをミラーリングしたデコーダーよりも学習機能が優れていることがわかりました。この著者のように非常に単純なデコーダを有するグラフオートエンコーダを設計紙、再構成されたグラフの隣接マトリックスであり、学習地物行列であり、はReLUのような非線形変換です。^=σZZT^Zσ

私はしばらくの間、この質問への回答を何度も探していましたが、なぜ大容量のデコーダーが低容量のデコーダーよりも望ましいのか(またはその逆も)、説明や理論上の結果は見つかりませんでした。 )。誰かが説明を提供したり、正しい方向に向けてくれたりしたら、感謝します。

回答:


1

あなたの直感は正しいですが、それは正しい文脈ではありません。まず、「高品質の機能」を、他のモデルのトレーニングに再利用できる機能として定義しましょう。たとえば、転送可能です。たとえば、ImageNetで(ラベル付けされていない)エンコーダーをトレーニングすると、ImageNetおよび他の画像データセットで分類するための強固なベースラインを提供できます。

ほとんどの古典的なオートエンコーダは、何らかの形の(正規化された)L2損失について訓練されています。つまり、表現をエンコードした後、デコーダーは元の画像を再現する必要があり、すべてのピクセルのエラーに基づいてペナルティが課されます。ここでは正則化が役立ちますが、これがファジーイメージを取得する傾向がある理由です。問題は、損失が意味論的ではないことです。人間の耳があることは問題ではありませんが、肌の色が顔全体で均一になる傾向があることは問題です。したがって、デコーダを本当にシンプルなものに置き換える場合、表現は画像の各領域で平均色を正しくすることに重点を置く可能性があります(そのサイズはデコーダの複雑さにほぼ比例し、非表示に反比例します)レイヤーサイズ)。

一方、より高品質のセマンティック機能を学習できる一般的な自己監視技術は数多くあります。ここでの鍵は、より良い損失関数を見つけることです。Andrew Zissermanによる非常に優れたスライドのセットをここで見つけることができます。簡単な例は、ランダムな作物のペアの相対位置を予測するようにトレーニングされたシャムネットワークです。

ここに画像の説明を入力してください

上の図では、猫の顔の最初の作物とネットワークが、耳の作物が猫の顔の北東で発生することを予測する必要があります。作物はランダムに選択され、コツは作物間の最小距離と最大距離のバランスを取ることであり、関連する作物が頻繁に発生することに注意してください。

言い換えると、ネットワークは、共有エンコーダーと初歩的な分類子を使用して、さまざまな作物の埋め込みを比較します。これにより、平均的な色と形のソフトセットではなく、猫が実際に何であるかをネットワークに学習させることができます。

上記のスライドには、クラスを予測するようにトレーニングされている場合、これらの埋め込みがロートオートエンコーダよりもはるかに良好に転送されることを示す、さらに多くの例があります。


1

理由の一部が歴史的なものかもしれないのではないかと思います(どうやらヒントンの2006年の論文では、このようにしていたことが示されています)。つまり、デコーダーはエンコーダーと同じ重みを使用しており、それらは効果的に一緒に学習されます。

この質問と回答https://stackoverflow.com/q/36889732/841830は、結合された重みを使用する利点について説明しています。ここにいくつかの背景:https : //amiralavi.net/blog/2018/08/25/tied-autoencoders

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.