新闻:GauGAN再升级!只需一句话即可得到逼真画作

一、背景

GauGAN是英伟达研发的一款交互型应用,首次亮相于2019年举办的GTC大会上。最初的GauGAN可以实现勾勒简单的线条,然后输出一副细腻的画作。2021年11月,英伟达推出GauGAN2。GauGAN2继承了GauGAN的原有功能,并且结合了分割映射、修复和文本到图像生成等技术。GauGAN2是一个通过输入文字和简单的绘画即可创建高质量图像的应用。

目前,GauGAN2仍在完善阶段,英伟达为感兴趣的用户提供了一个demo地址:

https://www.nvidia.com/en-us/research/ai-demos/

 

二、效果

GauGAN2现有三种主要的生成模式:

1.在简笔画的基础上生成。

图1 模式1的生成过程

只需勾勒出山脉的线条,AI就会生成完整的山脉,并且补充天空、云彩和江河等元素。

2.在文本的基础上生成。

图2 模式2的生成过程

这个生成模式是GauGAN2的重大创新,在文本框添加的每一个单词信息,都会在AI创建的图像中得到呈现。例如在下图中,从sunshine,到a tall tree 最后再到sunshine in a tall tree forest,生成的图像一直在随着文本的丰富而发生变化。

图3 模式2中实时生成的图像

3.在原有图像的基础上编辑部分内容生成。

图4 模式3的生成过程

AI会根据保留下来的部分中的元素智能填充到被涂抹的部分。

 

三、实现细节

GauGAN2建立在生成对抗网络(GAN)的基础上,由生成器和鉴别器组成。生成器的目标是生成逼真的图像。例如获取与文本匹配的图像,并预测可能与图片中元素对应的数据(例如图2中的山脉、雨天),使得鉴别器不能将合成图像与真实图像区分开。GAN的转换质量会随着鉴别器的反馈而不断提高。

此外,GauGAN2背后的AI模型借助了NVIDIA Selene超级计算机(全球最强的10台超级计算机之一),在1000万张高质量风景图像上训练而成。GauGAN2在单个模型中结合了分割映射、修复和文本到图像的生成,还借助神经网络学习词汇与其对应的视觉效果之间的连接。

图5 GauGAN的模型架构

编码器(Encoder)利用真实图像计算产生随机向量z;生成器(Generator)接收随机向量z,产生图像x,在产生过程中不断使用语义图增强语义信息;鉴别器(Discriminator)经过处理输出判断结果,如果与语义图与真实图像相连接则判断为真,如果与生成器生成的图像相连接则为假。

在生成器中构建了一个模块SPADE ResBlk,SPADE可以更好地保护语义信息不受常见归一化层的影响。使用SPADE不需要将分割图提供给生成器的第一层,因为学习的调制参数已经编码了关于标签布局的足够信息。

图6 SPADE生成器中每一个归一化层使用分段掩码来调制图层激活

 

四、展望

目前来看,如果GauGAN2的技术最终成熟,并达到英伟达宣称的水准。那么一定会降低画作艺术创作的门槛。理论上来说可以在电影、软件、视频游戏、产品、时尚设计等领域得到应用,英伟达官方称GauGAN第一代产品已经被用于电影和游戏中创建概念艺术,但是GauGAN2的模型虽然又超过1亿个参数,但是训练时间还不到一个月,训练图像仅来自于专有的风景图像数据集。GauGAN2仍在不断完善,可以期待未来GauGAN2提供开源并在更多领域投入使用。

 

参考链接

  1. https://mp.weixin.qq.com/s/GvZqFLoE3EtJoRAXuaSbbA
  2. https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/

参考文献

[1] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.

 

撰稿人:李维杰

审稿人:罗胜舟


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: