ニューラルネットワークをトレーニングして特定のスタイルで絵を描くことはできますか?


10

特定のスタイルで絵を描くようにニューラルネットワークをトレーニングすることは可能ですか?(つまり、画像を取得し、トレーニングされたスタイルで再描画します。)

そのようなことについて承認された技術はありますか?DeepArtアルゴリズムについて知っています。メイン画像を特定のパターン(たとえば、vangoghify画像)で塗りつぶすのは良いことですが、たとえば、入力されたポートレートから特定のスタイルで漫画を作成するなど、別のものを探しています。


3
写真と漫画のニューラルネットのトレーニングの1つの障害は、トレーニングデータセットを見つけることです。データセットには、写真と、それらの写真に基づいて人間が描いた漫画が含まれている必要があるようです。そのようなデータセットは知りません。
Tanner Swett、2016年

@TannerSwettそのようなトレーニングに必要な画像の量はどう思いますか?
zavg 2016年

私は専門家ではないので、大まかな推測しかできません。少なくとも1000枚の画像が必要になると思います。あなたはそれよりもはるかに多くを必要とするかもしれません。ところで、私はこのツールを見てお勧め:github.com/hardmaru/sketch-rnnツールは、漢字の模造品を生成するために使用されていること。おそらく、同様のツールが漫画の模倣を生成する可能性があります。
Tanner Swett、2016年

私のNNトレーニングは少し前だったので少し時代遅れかもしれませんが、数千の画像でネットワークをトレーニングし、それがスタイルで画像をレンダリングできると期待している場合は、あまりにも遠くに達しているかもしれません-これが良いスタータープロジェクトであると考えている場合は、そうしないでください。あなたが説明したことを達成するには、手作業の「たくさん」が必要になります。パターンマッチだけでなく、画像を解釈するために必要な知識について考えてください。
Peter Scott

回答:


12

関連する論文があります:LA Gatus、AS Ecker、M Bethge、2015、A Neural Algorithm of Artistic Style。アブストラクトから引用すると、

ここでは、高知覚品質の芸術的画像を作成するディープニューラルネットワークに基づく人工システムを紹介します。このシステムは、ニューラル表現を使用して任意の画像のコンテンツとスタイルを分離および再結合し、芸術的な画像を作成するためのニューラルアルゴリズムを提供します。

このペーパーの図2は次のとおりです。

ここに画像の説明を入力してください

あり、非常に人気のトーチに基づくオープンソース実装ここでは、非常に使いやすいです。その他の例については、リンクを参照してください。

計算は重いため、単一の画像の処理がこの作業の範囲であることを覚えておいてください。

編集:あなたの言及されたDeepArtプロジェクトを確認した後、それは同じテクニックを使用しているようです。スタイル転送の概念が一般的であるため、これがなぜあなたの望んでいないのかはわかりません。


4
漫画は、描写しているものの特徴を誇張して簡略化し、写真の形とは非常に異なる形を作り出します。既存のスタイル転送ニューラルネットがこれを行ったことはないと思います。
Tanner Swett、2016年

@TannerSwettここの例を見てください:imgur.com/a/ue6ap。それらのいくつかはかなり漫画っぽいです。
アメーバは、モニカ

@amoebaはい、彼らは漫画のように見えますが、それらのどれも、ほとんどの実際の漫画が持っている歪んだプロポーションを持っていません。
Tanner Swett、2016年

ここではスタイルの移管について話しています。すべての例では、アプリオリに選択されたスタイルを使用していますが、これらはいずれも漫画風ではありません(ゴッホで学習したときに、出力が漫画風に見えるのはなぜですか)。たぶん、オープンソースプロジェクトを実行して(以前は問題がなかった)、cartoon-inputで試してみることもできます。
sascha 2016年

7

これは解決するのがかなり難しい問題です。たとえばシンプソンズの漫画スタイルが画像にどのように適用されているかについて、ここいくつかの例を見ることができます

漫画の画像は、通常、この芸術的な効果を与える構造を備えていません。これを何らかの方法で適用しようとする最も簡単な方法は、フェイストラッカーを用意し、2つの顔(漫画の顔と人間の顔など)を位置合わせしてから適用することです。それはあなたをどこかに連れて行くかもしれませんが、それはまた奇妙に見えるかもしれません。次に、画像内のランドマークに注釈を付けてさらに支援し、これの前に非剛体登録を行う場合があります。これはまだいくぶんたわごとミックスのソリューションですが、私が考えることができる最も近いものは顔のために働くことができました。

編集:

@TannerSwettのコメントはこれに何かを追加します。一部のアーティストのWebページにアクセスして、彼らのイラストを見つけ、「彼らの」スタイルを学ぼうとする可能性があります。私はまだそれが満足のいくものか、十分なデータが得られるとは思いませんが、それはテストするのが面白いでしょう。現在、一般的に利用できる解決策はありませんが、間違いなくこれに取り組んでいる人がいると思います。すぐにより良い結果が得られるでしょう。

多分行くべき道は芸術的なニューラルネットワークアプローチではないと思います。たぶん、画像内のオブジェクトを分類し、オブジェクトとそれらの漫画の対応物との間の対応を学習し、その結果を何らかの意味のある方法でブレンドできるネットワークを持つ方が良いでしょう。


1
そのシンプソンの例は私にはかなり素晴らしい@Gumeo
FabricioG

1

複雑すぎないようにする必要があります。言及された記事を読んでいない、これが私のレシピです:

変分オートエンコーダー

モーフィングフェイスを使用したオンラインデモ:http : //vdumoulin.github.io/morphing_faces/online_demo.html

そしてhttps://jmetzen.github.io/2015-11-27/vae.html TEH codezため。

基本的に、これにより、ケースの「スタイル」をパラメーター化する方法が提供されます。たとえば、ブラシストロークの幅またはぼやけ具合をどのようにするかを考えてみましょう。エミュレートしようとしている特定のスタイルに依存するもの。

上記の例では、さまざまな「モーフィング」または「想像上の」顔は、潜在空間のパラメーターの関数です。下の画像では、それを「コード」レベルで変更することで得られるものです。

基本的な考え方は次のとおりです。元の画像が左、同じ画像の様式化されたバージョンが右にあります。

ここに画像の説明を入力してください

理論的には、このようなモデルを通常の画像と様式化された画像をターゲットとしてトレーニングし、畳み込みを追加すると、アーティストが使用する「ブラシストローク」のタイプに対応するカーネルフィルターを学習できるはずです。。

もちろん、それはあなたがオリジナルと定型化されたバージョンの両方で画像のいくつかの例を持つ必要があることを意味します。そのようなデータセットは、コミュニティに寄付するのに適しています。もしあなたがこれをやるなら、私はこの種の仕事にとても熱心です。

幸運を!

オートエンコーダーに関するWikiの記事が出発点として適しています。https//en.wikipedia.org/wiki/Autoencoder

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.