画像からの教師なし特徴抽出にGANを使用する方法


10

2つのネットワーク(生成的および識別的)が互いに競合する間、GANがどのように機能するかを理解しました。私はDCGAN(たたみ込み弁別器とたたみ込みジェネレーターを備えたGAN)を構築しました。これにより、MNISTデータセットと同様の手書き数字が正常に生成されます。

画像から特徴を抽出するためのGANのアプリケーションについては、たくさん読んだことがあります。トレーニングされたGANモデル(MNISTデータセット上)を使用して、MNIST手書きのdigist画像から特徴を抽出するにはどうすればよいですか?


特徴抽出では、128 * 120(つまり64 + 32 + 16 + 8)= 15360の特徴サイズを取得しています。私は何かが欠けていると確信しています。特徴ベクトルの選択に関して別の質問があります。特徴抽出時に(conv2d + batchnorm + activation)の重みを考慮すべきですか、それともconv2dの重みのみを考慮すべきですか?
タンモイダム

回答:


4

通常、フィーチャを抽出するには、出力の前にネットワークのトップレイヤーを使用できます。直感は、最上位層がロジスティック回帰にすぎないため、これらの機能は直線的に分離可能であるということです。

GANの場合、弁別子の機能を使用できます。これらの機能は、入力がトレーニングデータセット「実画像」からのものである場合に確率を与えると想定されています。ラドフォードのDCGAN 論文では、弁別器のすべての畳み込み層を使用し、CIFAR-10の最大プーリング層抽出機能を実行しています。

DCGANによって学習された教師付きタスクの表現の品質を評価するには、Imagenet-1kでトレーニングし、すべてのレイヤーからの弁別子のたたみ込み機能を使用して、各レイヤー表現を最大プールして4×4空間グリッドを生成します。次に、これらの機能が平坦化および連結されて28672次元ベクトルが形成され、その上に正則化線形L2-SVM分類器がトレーニングされます。


1

ケニーの答えは正解です。たたみ込みDを使用している場合、密集する前のレイヤーの出力が機能として役立つ場合があります。私の直感は、それがAC-GAN(または、偽物か本物かを決定することに加えてDが入力を分類するようにする類似のアーキテクチャー)でよりうまく機能すると思います。

生成されたサンプルとトレーニングサンプルを、ジェネレータを「初期化」するために使用される潜在分布zにマップできるエンコーダコンポーネントを追加する、BiGANと呼ばれるアプローチがあります。著者らは、転移学習やその他のタスクの機能セットとして効果的に使用できることを示しています。


0

GANは2つの部分(ジェネレーターとディスクリミネーター)で構成されているため、GANを特徴抽出器として使用するには2つの方法があります。

  1. ミハイル・ユラソフによって提示されたジェネレーターベースの方法。
  2. ケニーによって提示された弁別子ベースの方法。

2番目の方法はより物議を醸しています。いくつかの研究[1]は、直観的に、弁別器のターゲットは生成されたサンプルを実際のサンプルから区別することであるため、これら2種類のサンプルの違いにのみ焦点を当てると考えていました。しかし、理にかなっているのは、下流のタスクで使用されるサンプルである実際のサンプルの違いです。

私はこれを研究しようとしました、そして私は抽出された特徴が2つの直交するものに因数分解できることがわかりました部分空間に。最初のスペースは識別タスクに寄与し、2番目のスペースはそれから解放されます。ほとんどの場合、実際のサンプルと生成されたサンプルを区別するために使用される特徴はノイズであり、2番目の特徴空間にはノイズがありません。この観点から、弁別器のタスクは、下流のタスクに役立つ実際のサンプル間の違いに焦点を合わせませんが、2番目の部分空間に含まれるノイズのない機能は機能します。

[1]ヨーストトビアススプリンゲンベルグ。カテゴリー生成的敵対的ネットワークによる教師なし学習と半教師あり学習。arXiv:1511.06390 [cs、stat]、2016年4月。arXivプレプリント。arXiv:1511.06390 [stat.ML]。イサカ、ニューヨーク:コーネル大学図書館。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.