これにより、直接的なデータ収集の努力をはるかに超えることはほとんどありません。
現在のGAN出力の品質(2017年時点)は十分に高くありません。GANによって生成される画像は一般的に小さく、異常/曖昧な詳細と奇妙な歪みが含まれる場合があります。リンクされた論文では、文から、システムによって生成された画像は、主題与えられた色の信じられるブロックを持っているが、文なしでそれらのほとんどは、として認識されない期待する何をプライミング任意の特定の対象。
文章から画像を生成するよりも野心的ではないGAN(上記の私の批判にもかかわらず、本当に驚くべき偉業IMO)は、写真に近い画像を生成するはずです。しかし、それらの範囲はより狭くなり、おそらくあなたの希望する画像タイプは含まれません。また、通常、出力サイズは小さく、たとえば64x64または128x128 *であり、元のグラウンドトゥルース写真がはるかに望ましいほど十分な歪みとあいまいさが残っています。
GAN自体は利用可能なトレーニングライブラリによって制限されています。トレーニングデータの範囲外の画像を生成しようとするとうまくいきません。もちろん、研究論文に示されている結果は、トレーニングデータによって提供されるドメインに焦点を当てています。しかし、あなたはただ養うことができない任意のこのモデルに文を、有用な他の場所になり、結果を期待しています。
問題に適したデータセットでトレーニングされたGANを見つけた場合は、同じデータをプロジェクトに直接ソースしてみることをお勧めします。
グラウンドトゥルースデータが限られている問題に直面している場合、GANを使用するより良い方法は、VGG-19やInception v5などの事前に訓練された分類器を使用し、最後のいくつかの完全に接続されたレイヤーを置き換えて、データに合わせて調整してください。PythonでKerasライブラリを使用してそれを実行する例を次に示します。他の例は、「CNN画像分類子の微調整」などの検索で見つけることができます。
*最新のGANは、この回答を投稿してから改善されました。Nvidiaの研究チームは、1024x1024の写真のようにリアルな画像を作成することに成功しました。しかし、これは私の答えの他のポイントを変更しません。GANは画像分類タスクの画像の信頼できるソースではありません。ただし、GANがすでに訓練され、条件付きで(またはもっと簡単に)「その他」カテゴリのソースデータを提供できるサブタスクを除く分類子)。